Robots.txt là gì? Cách tối ưu hóa máy tìm kiếm bằng robots.txt

tập tin robots.txt là gì

Robots.txt là gì?

Robots.txt giúp các công cụ tìm kiếm biết được phần nào bạn cho phép thu thập thông tin, và phần nào cần phải tránh thu thập. Khi một công cụ tìm kiếm ghé thăm trang web của bạn, nó sẽ truy cập vào tập tin robots.txt trước tiên. Sau đó nó mới được phép thu thập thông tin nào mà bạn cho phép.

Tất cả các công cụ tìm kiếm đều có một phương pháp thu thập thông tin dữ liệu trang web riêng. Thu thập thông tin và lập chỉ mục là hai thuật ngữ khác nhau. Khi một bot tìm kiếm truy cập vào trang web của bạn từ một liên kết hay từ sitemap mà bạn đã gửi cho máy tìm kiếm, nó bắt đầu lần theo các liên kết để thu thập thông tin và lập chỉ mục trang web của bạn.

Tập tin robots.txt đóng một vai trò quan trọng trong xếp hạng tìm kiếm. Nó giúp chặn các công cụ tìm kiếm thu thập dữ liệu một phần nào đó trong trang web của bạn. Nhưng nếu như bạn cấu hình sai tập tin robots.txt, trang web của bạn có thể hoàn toàn biến mất khỏi các công cụ tìm kiếm. Vì vậy việc cấu hình tập tin robots.txt đúng là rất quan trọng.

Khi một công cụ tìm kiếm truy cập vào trang web của bạn, nó sẽ có một giới hạn nhất định. Rất khó để cho nó để có thể lập chỉ mục tất cả các trang trong một lần truy cập. Nếu nó không thể thu thập dữ liệu của tất cả các trang, nó sẽ ngừng lại, việc này cản trở việc lập chỉ mục trang web của bạn.

Trong tất cả các nội dung có trên trang web của bạn, sẽ có những phần bạn không muốn bot tìm kiếm thu thập dữ liệu như trang quản trị, thư mục wp-admin…

Bằng cách sử dụng robots.txt, bạn sẽ quản lý được việc thu thập dữ liệu của các công cụ tìm kiếm. Điều này không chỉ đẩy nhanh việc thu thập thông tin, mà còn giúp thu thập các dữ liệu sâu hơn trong trang web của bạn.

Robots.txt không phải là noindex và doindex, nó giúp điều khiển các công cụ tìm kiếm ngừng thu thập dữ liệu nào đó của trang web. Có rất nhiều người hiểu lầm đối với robots.txt là họ sử dụng nó cho noindex.

chỉnh sửa nội dung tập tin robots.txt

Chỉnh sửa nội dung tập tin robots.txt

File robots.txt nằm ở đâu?

Robots.txt nằm ở thư mục gốc tên miền của bạn. Nếu bạn đang sử dụng WordPress, tập tin robots.txt sẽ nằm trong thư mục gốc chứa WordPress. Tập tin robots.txt có thể truy cập được bằng trình duyệt theo đường dẫn URL: http://tenmien.com/robots.txt.

Ví dụ: file robots.txt của trang này là: https://kiem-tien.com/robots.txt.

Tạo tập tin robots.txt cho website

Tập tin robots.txt là một tập tin văn bản. Bạn có thể tạo tập tin này bằng công cụ Notepad có sẵn trong Window, sau đó tải lên thư mục gốc của hosting.

Ví dụ một tập tin robots.txt có nội dung như sau:

User-agent: googlebot
Disallow: /cgi-bin

Nội dung tập tin robots.txt như trên sẽ cho phép bot với  tên là googlebot thu thập thông tin của tất cả các trang web ngoại trừ thư mục cgi-bin ở thư mục gốc.

Bằng cách sử dụng tùy chọn Disallow, bạn có thể ngăn một bot bất kỳ thu thập thông tin ở trang hoặc thư mục nào đó.

Cấu trúc cơ bản của robots.txt của bạn như dưới đây sẽ tránh được trùng lặp nôi dung:

User-agent: *
Disallow: /wp-
Disallow: /trackback/

Điều này sẽ ngăn không cho các bot thu thập dữ liệu thư mục quản trị.

Nếu bạn muốn bot thu thập tất cả thông tin, sử dụng cấu trúc sau:

User-agent: *
Disallow:

Nếu vì lý do nào đó mà bạn không muốn bot thu thập bất cứ thông tin gì về trang web của bạn thì sử dụng cấu trúc:

User-agent: *
Disallow: /

Lấy thông tin của bot đã truy cập vào trang web

Bạn có thể lấy thông tin của bot đã truy cập vào trang web của bạn với các công cụ thông kế của trang web. Trong cPanel, bạn có thể lấy từ thống kê Visitors hay Awstats. Trong WordPress, với plugin Wordfence, bạn có thể xem được thống kê khách truy cập bằng công cụ Livetraffic.

Bạn có thể sử dụng User-agent: *** để cho phép hoặc ngăn một bot cụ thể nào đó thu thập thông tin.

VD: User-agent: googlebot

Bạn chỉ nên cho phép các công cụ tìm kiếm phổ biến truy cập vào trang web và ngăn các bot thu thập thông tin khác để giảm tải cho máy chủ.

Robots.txt chỉ dừng thu thập thông tin nhưng không ngăn việc lập chỉ mục. Thẻ noindex mới ngăn Google lập chỉ mục trang nào đó. WordPress mặc định không có tùy chọn thêm thẻ noindex, bạn có thể sử dụng plugin Yoast SEO để làm việc này.

Những việc nên tránh

  • Không thêm comment vào file robots.txt
  • Không thêm khoảng cách vào trước mỗi dòng. Ví dụ:     User-agent: ***
  • Tuân thủ đúng thứ tự, cú pháp.

Ví dụ :

Disallow: /cgi-bin
User-agent: googlebot

 

  • Nếu bạn muốn bot không thu thập nhiều thư mục/trang khác nhau, hãy phân dòng.

Ví dụ:

User-agent: *
Disallow: /support
Disallow: /cgi-bin
Disallow: /images

 

  • Viết hoa, viết thường đúng chỗ, “images” khác với “Images”

Tập tin Robots.txt của WordPress

Bên cạnh các nội dung đã nêu trên, bạn nên thêm vào tập tin robots.txt địa chỉ sitemap của website. Việc này giúp cho các bot dễ dàng tìm thấy sitemap.

sitemap: https://kiem-tien.com/sitemap_index.xml

User-agent:  *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /archives/
Disallow: /*?*
Disallow: *?replytocom
Disallow: /comments/feed/
User-agent: Mediapartners-Google*
Allow: /
User-agent: Googlebot-Image
Allow: /wp-content/uploads/

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Mobile
Allow: /

Kiểm tra nội dung website sau khi chỉnh sửa robots.txt

Sau khi chỉnh sửa tập tin robots.txt, bạn nên kiểm tra lại các nội dung website của bạn bị ảnh hưởng như thế nào.

Vào công cụ Google Search Console > Crawl > robots.txt Tester.

kiểm tra sự ảnh hưởng của robots.txt

Phía trên là nội dung tập tin robots.txt lần cuối cùng Google thu thập.

Phía dưới là ô địa chỉ URL để bạn kiểm tra sự ảnh hưởng của tập tin robots.txt. Nhập vào đây một địa chỉ bài viết nào đó trên website của bạn, sau đó nhấn nút Test. Nếu như nó hiện Allowed tức là bài viết không bị ảnh hưởng, bài viết đó sẽ được Google thu thập thông tin và Index. Nếu như nó hiện Blocked thì bạn nên kiểm tra và thay đổi lại nội dung tập tin robots.txt một lần nữa.

Chúc bạn thành công!

Trả lời

Website này sử dụng Akismet để hạn chế spam. Tìm hiểu bình luận của bạn được duyệt như thế nào.