tìm hiểu về tệp robots.txt

Tìm hiểu về tệp robots.txt: Khái niệm và cách sử dụng

Bất cứ khi nào các công cụ tìm kiếm thu thập dữ liệu từ một trang web, việc đầu tiên sẽ là đọc nội dung tệp robots.txt để được chỉ dẫn.

Hãy sử dụng tệp robots.txt trên máy chủ web của bạn.

Trích từ nguyên tắc quản trị trang web của Google

Tệp robots.txt là gì?

Tệp robots.txt cho webcrawler (trình thu thập dữ liệu về các trang web) của công cụ tìm kiếm (Google, Bing, Yahoo…) biết các trang hoặc tệp mà trình thu thập dữ liệu có thể hoặc không thể yêu cầu từ trang web của bạn.

Tệp này chủ yếu dùng để ngăn trình thu thập dữ liệu gửi quá nhiều yêu cầu cho trang web của bạn.

Khi truy cập trang web, điều đầu tiên các webcrawler làm là tìm kiếm và kiểm tra nội dung của tệp robots.txt. Tùy thuộc vào các quy tắc được chỉ định trong tệp, chúng tạo ra một danh sách các URL có thể thu thập dữ liệu và sau đó lập chỉ mục cụ thể cho trang web.

Nội dung của tệp robots.txt được công khai trên Internet nên bất kỳ ai cũng có thể xem nội dung tệp robots.txt của bạn. Vì vậy đây không phải là nơi để thêm nội dung nhạy cảm mà bạn không muốn người khác xem.

Một số câu hỏi thường gặp về tệp robots.txt

Có bắt buộc phải sử dụng tệp robots.txt không?

Không. Khi bạn không có tệp robots.txt, các webcrawler như Googlebot sẽ hiểu rằng tất cả các trang có sẵn trên trang web của bạn đều ở chế độ công khai và nó có thể thu thập toàn bộ dữ liệu.

Điều gì sẽ xảy ra nếu robots.txt không được cấu hình đúng?

Nếu các webcrawler không thể hiểu nội dung của tệp tin vì nó bị cấu hình sai, nó vẫn truy cập vào trang web và có thể bỏ sót dữ liệu cần thu thập để lập chỉ mục cho trang web.

Điều gì sẽ xảy ra nếu tôi vô tình chặn các webcrawler truy cập trang web của tôi?

Đó là một vấn đề lớn. Các webcrawler sẽ không thu thập dữ liệu và lập chỉ mục trang từ trang web của bạn và dần dần công cụ tìm kiếm sẽ xóa bất kỳ trang nào đã có trong chỉ mục của họ.

Làm thế nào để tạo tệp robots.txt?

Bạn có thể sử dụng bất kì ứng dụng soạn thảo văn bản nào (Microsoft Word, WordPad, Notepad…) để tạo tệp robots.txt, đơn giản chỉ cần gõ nội dụng hoặc copy/paste từ nơi khác. Thay vì “Tôi đang tạo tệp robots.txt”, hãy thử nghĩ “Tôi đang viết ghi chú” bởi chúng thực hiện khá nhiều quy trình giống nhau.

Nên sử dụng tệp robots.txt trong những trường hợp nào?

  • Bạn muốn chặn webcrawler truy cập các trang hoặc thư mục cụ thể của trang web.
  • Bạn đang sử dụng các liên kết hoặc quảng cáo trả phí cần có hướng dẫn đặc biệt cho webcrawler.
  • Khi trang web của bạn quá lớn, việc thu thập dữ liệu và lập chỉ mục toàn bộ trang web có thể gây ra các vấn đề về hiệu năng nghiêm trọng.
  • Trang web chưa chính thức hoạt động và bạn chưa muốn webcrawler lập chỉ mục.
  • Chúng giúp bạn tuân theo một số nguyên tắc của Google trong một số trường hợp nhất định.
  • Khi bạn sử dụng URL rút gọn thay thế cho các liên kết của trang web.

Tệp robots hoạt động như thế nào?

Tất cả các chỉ dẫn trong tệp robots.txt đều dẫn đến một trong ba kết quả sau:

  • Cho phép toàn bộ: Cho phép thu thập dữ liệu toàn bộ nội dung.
  • Hoàn toàn không cho phép: Không cho phép thu thập dữ liệu nội dung nào.
  • Cho phép có điều kiện: Các lệnh trong tệp robots.txt xác định khả năng thu thập dữ liệu một số nội dung nhất định.

Tệp robots.txt nằm ở thư mục gốc của trang web của bạn. Vì vậy, đối với trang web www.example.com, tệp robots.txt nằm tại www.example.com/robots.txt

robots.txt là một tệp văn bản thuần túy, bao gồm một hoặc nhiều quy tắc. Mỗi quy tắc chặn (hoặc cho phép) một webcrawler nhất định truy cập vào một đường dẫn tệp được chỉ định trong trang web đó.

Dưới đây là ví dụ về một tệp robots.txt đơn giản với hai quy tắc kèm theo phần giải thích:

# Group 1
User-agent: Googlebot
Disallow: /nogooglebot/

# Group 2
User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

Giải thích:

  • User-agent (Tác nhân người dùng) có tên “Googlebot” không được thu thập dữ liệu thư mục http://example.com/nogooglebot/ hoặc bất kỳ thư mục con nào.
  • Tất cả User-agent khác có thể truy cập toàn bộ trang web (quy tắc này có thể được bỏ qua và kết quả vẫn sẽ giống nhau, vì quyền truy cập đầy đủ là mặc định).
  • Tệp Sitemap (Sơ đồ trang web) của trang nằm tại http://www.example.com/sitemap.xml

Tôi sẽ cung cấp một ví dụ chi tiết hơn ở phần sau.

Nguyên tắc cơ bản về tệp robots.txt

Dưới đây là một số nguyên tắc cơ bản về tệp robots.txt. Bạn nên đọc cú pháp đầy đủ của tệp robots.txt vì cú pháp robots.txt có một số hành vi tương đối phức tạp mà bạn nên hiểu rõ.

  • Phải đặt tên tệp là robots.txt
  • Trang web của bạn chỉ có thể có một tệp robots.txt
  • Tệp robots.txt phải nằm ở thư mục gốc của máy chủ trang web tương ứng. Ví dụ: Để kiểm soát quá trình thu thập dữ liệu của tất cả các URL tại http://www.example.com/ thì tệp robots.txt phải nằm ở http://www.example.com/robots.txt. Không được đặt tệp trong thư mục con (ví dụ như http://example.com/pages/robots.txt).
  • Tệp robots.txt có thể áp dụng với miền con (chẳng hạn http://website.example.com/robots.txt) hoặc trên các cổng không chuẩn (như là http://example.com:8181/robots.txt).
  • Nhận xét (Comment) là bất kỳ nội dung nào sau dấu #.

Sử dụng công cụ Trình kiểm tra robots.txt để viết hoặc chỉnh sửa tệp robots.txt trên trang web của bạn. Công cụ này cho phép bạn kiểm tra cú pháp và hành vi của tệp trên trang web của mình.

Cú pháp

  • User-agent: Tên trình thu thập dữ liệu bạn muốn chỉ định (ví dụ: Googlebot, Bingbot…). Nhập giá trị là * nếu muốn hướng dẫn tất cả trình thu thập dữ liệu.
  • Disallow: Được sử dụng để thông báo cho các User-agent không thu thập bất kì dữ liệu URL cụ thể nào đó. Mỗi URL chỉ được sử dụng 1 dòng Disallow.
  • Allow: Chỉ áp dụng cho bọ tìm kiếm Googlebot. Lệnh thực hiện thông báo cho Googlebot rằng nó có thể truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.
  • Crawl-delay: Thông báo cho các webcrawler biết rằng nó phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng Googlebot không thừa nhận lệnh này. Bạn có thể cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
  • Sitemap: Được sử dụng để cung cấp các vị trí của bất kì XML sitemap nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi công cụ tìm kiếm Google, Ask, Bing và Yahoo.

Các quy tắc robots.txt hữu ích

Dưới đây là một số quy tắc robots.txt phổ biến và hữu ích:

Quy tắcMẫu
Không cho phép thu thập dữ liệu toàn bộ trang web. Xin lưu ý rằng trong một số trường hợp, các URL từ trang web vẫn có thể được lập chỉ mục ngay cả khi chưa được thu thập dữ liệu.User-agent: *
Disallow: /
Không cho phép thu thập dữ liệu một thư mục và nội dung thư mục bằng cách đặt dấu gạch chéo lên sau tên thư mục. Hãy nhớ rằng bạn không nên sử dụng robots.txt để chặn truy cập vào nội dung riêng tư: thay vào đó hãy sử dụng phương thức xác thực phù hợp. Các URL không được tệp robots.txt cho phép có thể vẫn được lập chỉ mục mà không cần thu thập dữ liệu. Bất kỳ người nào cũng có thể xem tệp robots.txt và điều này có thể làm lộ vị trí của nội dung riêng tư của bạn.User-agent: *
Disallow: /calendar/
Disallow: /junk/
Cho phép truy cập vào một trình thu thập dữ liệuUser-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Cho phép truy cập vào tất cả ngoại trừ một trình thu thập dữ liệuUser-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /
Không cho phép thu thập dữ liệu một trang web bằng cách đưa trang vào sau dấu gạch chéo:User-agent: *
Disallow: /private_file.html
Chặn một hình ảnh cụ thể từ Google Images:User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
Chặn tất cả hình ảnh trên trang web của bạn từ Google Images:User-agent: Googlebot-Image
Disallow: /
Không cho phép thu thập dữ liệu các tệp thuộc một loại cụ thể (ví dụ: .gif):User-agent: Googlebot
Disallow: /*.gif$
Không cho phép thu thập dữ liệu toàn bộ trang web, nhưng hiển thị quảng cáo AdSense trên các trang đóUser-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Khớp với URL kết thúc bằng một chuỗi cụ thể, sử dụng $. Ví dụ: mã mẫu chặn bất kỳ URL nào kết thúc bằng .xls:User-agent: Googlebot
Disallow: /*.xls$

Sử dụng tệp robots.txt cho WordPress

Tất cả những gì bạn đọc bên trên về tệp robots.txt cũng áp dụng cho các trang web WordPress.

WordPress mặc định sử dụng tệp robots.txt ảo. Điều này có nghĩa là bạn không thể trực tiếp chỉnh sửa tập tin hoặc tìm nó trong thư mục gốc của thư mục của bạn.

Cách duy nhất để xem nội dung của tệp là gõ www.tenmien.com/robots.txt trong trình duyệt của bạn.

Các giá trị mặc định của tệp robots.txt trong WordPress là:

User-agent: *
Disallow: / wp-admin /
Allow: /wp-admin/admin-ajax.php

Thêm một điều nữa thường gặp cần lưu ý: Khi mới cài đặt WordPress một số bạn lựa chọn chặn tất cả các công cụ tìm kiếm thu thập dữ liệu, nhưng khi website hoàn thiện thì lại quên không mở lại tính năng này.

Để cho phép các webcrawler tiến hành thu thập dữ liệu của trang web, bạn vào Trang quản trị (Back-end) → Settings → Reading và bỏ chọn tại mục “Discourage search engines from indexing this site”.

Sử dụng tệp robots.txt trong WordPress

Mẹo: Sử dụng plugin Yoast SEO giúp quản lý tệp robots.txt dễ dàng hơn. Truy cập Trang quản trị (Back-end) → SEO → Tools → File editor để chỉnh sửa nội dung và sau đó lưu lại.

Tệp robots.txt thực tế tốt nhất cho SEO

  • Kiểm tra tệp robots.txt của bạn và đảm bảo rằng bạn không chặn bất kỳ phần nào của trang web mà bạn muốn xuất hiện trong các công cụ tìm kiếm.
  • Không chặn thư mục CSS hoặc Java Script. Google trong quá trình thu thập thông tin và lập chỉ mục có thể xem một trang web như một người dùng thực và nếu các trang của bạn cần JS và CSS hoạt động đúng cách, chúng sẽ không bị chặn.
  • Nếu bạn đang sử dụng WordPress, bạn không cần phải chặn truy cập vào các thư mục wp-admin wp-include. WordPress thực hiện công việc tuyệt vời bằng thẻ meta robots. Tuy nhiên, làm thì cũng không sao.
  • Không nên cố gắng chỉ định các quy tắc khác nhau cho mỗi webcrawler của công cụ tìm kiếm, nó có thể gây nhầm lẫn và khó để cập nhật. Sử dụng User-agent tốt nhất là: * và cung cấp một bộ quy tắc cho tất cả các webcrawler.

Kết luận

Bạn không phải mất quá nhiều thời gian để cấu hình hoặc thử nghiệm tệp robots.txt của mình. Điều quan trọng là phải có và thử nghiệm thông qua Công cụ quản trị trang web của Google để chắc chắn rằng bạn không chặn trình thu thập thông tin của công cụ tìm kiếm truy cập vào trang web của bạn.

Đó là một công việc bạn cần làm một lần khi bạn lần đầu tiên tạo trang web của bạn hoặc như một phần kỹ thuật đầu tiên khi bạn kiểm tra SEO một trang web.

Leave a Comment

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *