File Robots.txt được biết đến là một trong những yếu tố đầu tiên mà các SEOer cần tiến hàng kiểm tra và tối ưu trong quá trình tối ưu công cụ tìm kiếm (SEO) website. Bất cứ sự cố hoặc cấu hình sai nào trong tệp Robots.txt đều sẽ dẫn đến các vấn đề tiêu cực về SEO, khiến thứ hạng website bị ảnh hưởng. Vậy Robots.txt là gì? Cách tạo Robots.txt như thế nào? Cần chú ý điều gì khi dùng tệp Robots.txt?
Tìm hiểu File Robots.txt là gì và một số cú pháp của Robots.txt?
File Robots.txt là gì?
Robots.txt là một tập tin văn bản đơn giản có đuôi ở dạng txt chuyên được dùng trong việc quản trị web. Tập tin này là một phần của Robots Exclusion Protocol (REP) chứa một nhóm những tiêu chuẩn về web quy định cách robot web/robot máy tìm kiếm thu thập dữ liệu web, truy vấn, index nội dung, cung cấp nội dung đó đến người dùng.
Tệp này giúp các nhà quản trị web chủ động và linh hoạt hơn trong việc kiểm soát bot của Google. Robots.txt cũng được dùng để cấp quyền chỉ mục cho những con bọ của máy tìm kiếm. Nên bất cứ website nào cũng nên dùng Robots.txt, nhất là những website nào đang xây dựng hoặc trang web lớn.
>> Xem thêm: Website giá rẻ – Giải pháp kinh tế cho doanh nghiệp
Các cú pháp/thuật ngữ của tệp Robots.txt
Dưới đây là một số thuật ngữ/ cú pháp phổ biến trong File Robots.txt mà người dùng nên nắm được:
- User-agent: Là phần tên của những trình thu thập thông tin, truy cập dữ liệu của web;
- Disallow: Dùng để thông báo cho User-agent không thu thập dữ liệu ở cụ thể một Url nào. Mỗi url chỉ được dùng 1 dòng Disallow.
- Allow: Lệnh này chỉ áp dụng cho bộ máy tìm kiếm Googlebot. Allow thông báo cho Google rằng nó sẽ truy vấn vào 1 thư mục con hoặc 1 site nào đó kể cả site hoặc thư mục con đó không được phép.
- Crawl – delay: Đưa ra thông báo với những web crawler biết phải đợi bao nhiêu giây trước khi load và thu thập nội dung của site. Nhưng Googlebot không thừa nhận lệnh này và bạn buộc phải tăng tốc thu thập dữ liệu trong Google Search Console.
- Sitemap: Thuật ngữ này dùng để cung cấp vị trí của bất cứ Sitemap XML nào được liên kết với Url này. Chú ý rằng lệnh này chỉ được Google, Bing, Ask và Yahoo hỗ trợ.
Lợi ích của File Robots.txt đối với website
Chặn bọ của Google thu thập và index những nội dung chưa hoàn chỉnh
Tại thời điểm xây dựng website, vẫn có một số thứ chưa được như ý muốn thì nhà tạo lập web cần chặn bọ Google không thu thập dữ liệu và index những nội dung chưa hoàn chỉnh. Bạn chỉ sử dụng tập tin Robots.txt trong quy trình thiết lập hệ thống.
Nếu trang web đang hoạt động ổn định thì đừng chèn bất cứ đoạn mã nào vào tệp Robots.txt. Vì làm như vậy chỉ khiến trang web của bạn không thể xuất hiện trên bảng kết quả của công cụ tìm kiếm.
>> Xem thêm: Tận dụng dịch vụ quản trị website để nâng cao trải nghiệm người dùng.
Chèn sơ đồ trang web (sitemap)
Sitemap như một tấm bản đồ giúp Google nhìn thấy các site trên web của bạn nhanh hơn. Nếu số lượng bài viết được index trên site quá lớn mà web đó lại không có sitemap thì Google không đủ khả năng index tất cả. Điều này có thể khiến những nội dung quan trọng không thể hiển thị trên trang tìm kiếm.
Chặn bọ quét liên kết ngược (backlink)
Hiện nay, có 3 công cụ chuyên dùng để quét chất lượng của backlink gồm: Moz, Ahrefs, Majestic, có khả năng quét liên kết ngược ở bất cứ website nào. Nếu dùng File Robots.txt có thể giúp bạn ngăn chặn các bọ quét backlink để đối thủ không thể phân tích được liên kết ngược bạn dùng.
Ngăn chặn Google index những thư mục cần được bảo mật
Các mã nguồn của trang web thường sẽ có những thư mục cần được bảo vệ như: wp-includes, wp-admin, phpinfo.php, cgi-bin, memcached,… Những web này sẽ không được index. Vì chỉ cần nội dung bị công khai, hacker sẽ lấy đi những thông tin quan trọng hoặc tấn công website của bạn. Bạn dùng Robots.txt để ngăn chặn Google index những thư mục đó.
>> Xem thêm: Từ khóa – Tìm hiểu về quá trình nghiên cứu và sử dụng từ khóa
Chặn những phần mềm độc hại của đối thủ
Đối thủ của bạn có thể sử dụng các công cụ nghiên cứu, phân tích backlink của bạn, họ còn có thể dùng các phần mềm độc hại. Chẳng hạn, họ dùng những con bọ chuyên sao chép nội dung của website khác hoặc dùng những con bọ để gửi nhiều và nhanh các request đến máy chủ của bạn.
Những con bọ này khiến website của bạn bị hao tốn tài nguyên và băng thông. Do đó, bạn nên dùng Robots.txt để ngăn chặn các phần mềm độc hại mà đối thủ sử dụng trên website của bạn.
Chặn bọ Google index các trang thương mại điện tử
Các trang thương mại điện tử thường có những yêu cầu đặc trưng dành cho người dùng. Chẳng hạn, đề nghị người dùng đăng ký, đăng nhập, review sản phẩm, giỏ hàng,…
Các admin của những trang này thường tạo ra các nội dung trùng lặp, không thể hỗ trợ cho việc SEO từ khóa. Chính vì vậy, bạn có thể dùng File Robots.txt để ngăn chặn bọ của Google index các đường dẫn của trang thương mại điện tử.
File Robots.txt hoạt động như thế nào?
Cách thức mà Robots.txt hoạt động như sau:
- Bước 1: Crawl dữ liệu trên web để khám phá các nội dung trên web bằng cách đưa công cụ đi theo liên kết từ site này đến site khác. Sau đó, tiến hành thu thập thông tin từ hàng tỉ web khác nhau. Quá trình này còn được gọi là “Spidering”.
- Bước 2: Chỉ mục nội dung đó để đáp ứng nhu cầu tìm kiếm của người dùng. Tệp txt sẽ chứa những thông tin về cách công cụ của Google thu thập dữ liệu của trang web. Lúc này, những con bot được hướng dẫn thêm nhiều thông tin cụ thể của quá trình này.
Chú ý: Nếu Robots.txt không có bất cứ chỉ thị nào cho những user – agent hoặc nếu bạn không tạo tệp Robots.txt cho web thì con bot sẽ tiến hành thu thập dữ liệu trên các website khác.
Tổng hợp 3 cách tạo File Robots.txt dễ thực hiện nhất
Nếu bạn kiểm tra mà phát hiện website của mình không có tệp Robots.txt hoặc muốn thay đổi tệp Robots.txt hiện tại, có thể áp dụng 3 cách sau để tạo Robots.txt cho WordPress:
Cách 1: Sử dụng Yoast SEO
- Bước 1: Bạn cần đăng nhập vào trang web của mình trên WordPress, bạn sẽ thấy giao diện của trang WordPress Dashboard.
- Bước 2: Bạn chọn mục “SEO”, tiếp tục chọn “Tools”.
- Bước 3: Bạn chọn mục “File editor”. Giao diện màn hình xuất hiện file Robots.txt và .htaccess file.
Đây chính là nơi sẽ giúp bạn tạo được tệp Robots.txt:
Cách 2: Bạn có thể dùng bộ Plugin All in One SEO
Để tạo tệp Robots.txt WordPress đơn giản, bên cạnh cách trên thì bạn còn có thể sử dụng bộ Plugin All in One SEO. Bạn thực hiện các bước sau:
- Bước 1: Bạn truy vấn vào giao diện chính của Plugin All in One SEO Pack. Nếu bạn chưa có bộ Plugin này thì hãy tải công cụ này về trước.
- Bước 2: Bạn chọn All in One SEO, chọn tiếp mục “Feature Manager”, chọn tiếp “Active” cho tệp Robots.txt.
- Bước 3: Bạn tạo và thiết lập các mục cho tệp Robots.txt WordPress.
Chú ý: Plugin All in One SEO có thể làm mờ đi những thông tin của tệp Robots.txt thay vì cho phép bạn chỉnh sửa tệp như Yoast SEO. Việc này có thể sẽ khiến người dùng bị động trong việc chỉnh sửa tệp Robots.txt WordPress. Nhưng công bằng mà nói thì plugin này lại giúp hạn chế một số thiệt hại cho website, nhất là tránh được những malware bots hại website.
Cách 3: Tạo sau đó upload Robots.txt qua FTP
Nếu bạn không muốn dùng Plugin All in One để tạo Robots.txt WordPress thì có thể tự tạo file Robots.txt cho WordPress của mình sau đó upload qua FTP như sau:
- Bước 1: Bạn mở Textedit hoặc Notepad để có thể tự tạo tệp Robots.txt cho WordPress.
- Bước 2: Bạn mở FTP, tiếp tục chọn mục public_html, bạn chọn tiếp Robots.txt, sau đó chọn Upload là xong.
Và đó là 3 cách tạo file Robots.txt đơn giản nhất mà bất cứ SEOer nào cũng có thể thực hiện được. Tuy nhiên, trong quá trình tạo Robots.txt, bạn cũng cần tuân thủ một số quy tắc. Đó là những quy tắc nào?
>> Xem thêm: Google Trend – Xem xu hướng tìm kiếm và tạo nội dung thú vị
Những quy tắc bạn cần nhớ khi tạo Robots.txt
Để tạo tệp Robots.txt không bị lỗi, bạn cần tuân thủ một số quy tắc sau:
- Để những con bots tìm thấy thì tệp Robots.txt WordPress cần được đặt trong những thư mục cấp cao nhất của website.
- File txt có phân biệt chữ hoa với chữ thường nên khi đặt tên, bạn phải viết là robots.txt chứ không phải là Robots.txt hay robots.TXT.
- Bạn không nên đặt /wp-content/plugins/ hay /wp-content/themes/ vào mục Disallow. Vì việc này có thể cản trở các máy tìm kiếm nhìn nhận một cách chính xác giao diện web hay blog.
- Một số các user – agent hay chọn cách bỏ qua những tệp robots.txt chuẩn. Điều này là khá phổ biến với những user – agent không tốt như bots của các phần mềm độc hại (malware bots), những trình Scraping địa chỉ mail.
- Những tệp Robots.txt thường hay có sẵn và được công khai trên website. Bạn chỉ cần thêm /robots.txt vào vị trí cuối cùng của bất cứ Root Domain đều có thể xem được các chỉ thị của trang web đó. Tức là bất kỳ người nào cũng có thể nhìn thấy những site mà bạn muốn hoặc không muốn crawl. Do đó, bạn không nên dùng file này ẩn đi thông tin người dùng.
- Mỗi subdomain trên 1 Root Domain sẽ dùng các tệp robots.txt khác nhau. Bạn có thể hiểu điều này rằng cả example.com và blog.example.com đều có những tệp robots.txt riêng. Điều này là cách tốt nhất để chỉ ra vị trí của bất cứ sitemap nào đã liên kết với tên miền ở cuối file robots.txt.
Những note quan trọng dành cho bạn khi sử dụng File Robots.txt
Khi dùng tệp robots.txt, bạn cần ghi nhờ một số điều khá quan trọng sau:
- Những liên kết trên trang do các robots.txt chặn sẽ không được các bots theo dõi. Trừ trường hợp những liên kết đó điều hướng hướng đến một website khác. Nếu không, những tài nguyên được liên kết rất có thể không được thu thập dữ liệu và index.
- Các liên kết sẽ không được truyền từ những site bị chặn đến các site đích. Do đó, nếu bạn muốn có được dòng sức mạnh của link juice truyền qua các site này thì nên dùng một phương thức khác thay vì tạo file robots.txt cho wordpress.
- Bạn cũng không nên dùng tệp robots.txt nhằm mục đích ngăn chặn các dữ liệu nhạy cảm. Chẳng hạn như, thông tin người dùng riêng tư bị xuất hiện trên trang kết quả tìm kiếm SERP. Bởi site có chứa các thông tin cá nhân này có thể sẽ liên kết đến nhiều trang web khác. Do vậy, các con bots những chỉ thị của tệp robots.txt trên trang chủ hay Root Domain của bạn.
- Nếu bạn muốn chặn các trang khỏi bảng kết quả tìm kiếm thì đừng tạo robots.txt cho WordPress mà hãy chọn một phương pháp khác. Chẳng hạn như: Sử dụng Noindex Meta Directive hoặc dùng mật khẩu để bảo vệ. Trong khi, các công cụ tìm kiếm có rất nhiều user – agent. Ví dụ. Google dùng Googlebot cho những truy vấn miễn phí và Google Image cho những truy vấn hình ảnh.
- Phần lớn những user – agent từ cùng một công cụ thì đều phải tuân thủ một quy tắc. Cho nên bạn sẽ không cần phải chỉ định các lệnh cho mỗi user – agent. Tuy nhiên, bạn vẫn có thể làm điều này vì có thể giúp bạn điều chỉnh được cách Google lập chỉ mục nội dung cho website.
- Các máy tìm kiếm sẽ lưu trữ lại những nội dung tệp robots.txt WordPress. Tuy nhiên, công cụ vẫn thường xuyên cập nhật nội dung trong bộ nhớ cache tối thiểu một lần mỗi ngày. Nếu bạn cần thay đổi tệp và cập nhật tệp của mình nhanh hơn thì hãy tận dụng ngay tính năng “Gửi” của trình kiểm tra file robots.txt.
Tổng kết
Trên đây là những thông tin cơ bản về file robots.txt. Hi vọng rằng với tất cả những gì được chia sẻ trong bài viết bạn có thể tự tạo robots.txt cho wordpress của mình và sử dụng tệp này một cách hiệu quả nhất.
Nếu bạn cần tư vấn thêm hoặc hướng dẫn chi tiết hơn nữa về cách tạo và cách dùng file robots.txt, đừng ngại để lại thắc mắc dưới phần comment bài viết. Hoặc liên hệ đến số hotline hiển thị trên web để nhận tư vấn trực tiếp.
Trân trọng!