Robots.txt là Gì? Hướng dẫn Cách tạo File robots.txt chuẩn SEO

Đăng tải : 23/05/2023
robots.txt là gì

Kiểm tra file robots.txt là yêu cầu quan trọng đối với checklist SEO Technical cho một website. Thế nhưng bạn đã biết robots.txt là gì? Làm sao để tạo một file robots txt chuẩn? Cùng Max Seo tìm hiểu chi tiết qua bài viết sau đây.

File robots.txt là gì?

Robots.txt là một tập tin nằm trên thư mục gốc của website cung cấp hướng dẫn cho bot của các công cụ tìm kiếm về các trang hoặc phần của trang web có thể hay không thể thu thập thông tin hoặc lập chỉ mục. File robots.txt là một công cụ quan trọng đối với quản trị viên web và chuyên gia SEO. 

Đường dẫn truy cập tệp robots.txt của một website bất kỳ:

https://yourdomain.com/robots.txt

Khái niệm robots.txt là gì
Khái niệm robots.txt là gì?

Tại sao bạn cần tạo file robots.txt?

Mục đích của tệp robots.txt là để giữ bí mật thông tin cá nhân và ngăn các công cụ tìm kiếm lập chỉ mục nội dung trùng lặp hoặc các trang chất lượng thấp có thể gây hại cho vị trí của trang web trong kết quả của công cụ tìm kiếm. Tệp cũng có thể được sử dụng để ngăn bot lập chỉ mục một số trang hoặc thư mục không liên quan.

Tại sao cần file robots.txt
Tại sao cần file robots.txt

Việc không bao gồm tệp robots.txt trên một trang web có thể khiến các công cụ tìm kiếm truy cập vào các khu vực mà chủ sở hữu trang web không muốn hoặc hướng lưu lượng truy cập đến các trang không quan trọng. 

Cú pháp của file robots.txt

Dưới đây là những cú pháp mà bạn nên hiểu trước khi tạo tệp robots cho website wordpress của mình: 

  • User-agent: là cú pháp để chỉ định bot của trình thu thập dữ liệu. Ví dụ: GoogleBot, BingBot, Baiduspider…
  • Disallow: là cú pháp để thông báo rằng các bot của công cụ tìm kiếm không được thu thập dữ liệu từ dòng này trở đi.
  • Allow: là cú pháp để chỉ định bot tìm kiếm được phép thu thập dữ liệu từ dòng này trở đi.
  • Crawl-delay: là cú pháp để hướng dẫn cho các công cụ tìm kiếm trì hoãn việc thu thập dữ liệu trong một thời gian nhất định giúp giảm tải cho máy chủ. Hiện nay một số công cụ tìm kiếm không tuân thủ theo cú pháp Crawl-delay và định nghĩa của cú pháp này đối với các công cụ tìm kiếm cũng khác nhau. Ví dụ: Crawl-Delay: 10 (trì hoãn thu thập dữ liệu trong 10s). 
  • Sitemap: dùng để khai báo đường dẫn của tệp robots.txt trên website.

Ngoài ra, để ngăn chặn một thư mục hoặc một tập hợp url chứa các thành phần giống nhau bạn có thể sử dụng các tùy chọn Pattern-Matching để hướng dẫn cho bot tìm kiếm. 

Ví dụ:

Bạn muốn chặn tất cả các công cụ tìm kiếm lập chỉ mục tìm kiếm nội bộ bạn nên sử dụng cú pháp sau:

User-agent: * 

Disallow: /?s=*

Mẫu file robots.txt chuẩn:

Dưới đây là mẫu tệp robots.txt chuẩn bạn có thể tham khảo để tạo cho website của mình. 

User-agent: *
Allow: /
Disallow: /?s=* Disallow: /*/search/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/
Sitemap: https://maxseo.vn/sitemap_index.xml
*Lưu ý: Thay sitemap bằng đường dẫn sitemaps của website bạn.

Hướng dẫn cách tạo robots.txt chi tiết

Có rất nhiều cách để tạo file robots.txt, trong đó có 2 cách phổ biến nhất là tạo file robots.txt thủ công và tải lên máy chủ. Hoặc tạo và chỉnh sửa file robots.txt thông qua plugin SEO.

Tạo tệp robots.txt thủ công

Ở hướng dẫn này, Max Seo sẽ hướng dẫn bạn tạo trực tiếp trên hosting sử dụng Cpanel. 

Bước 1: Tạo file robots.txt

 Ở bước này, bạn có thể tạo trực tiếp qua trình chỉnh sửa của hosting hoặc tạo từ máy tính để tải lên. Bước tạo trực tiếp trên hosting Max Seo sẽ cập nhật trong các bước tiếp theo. Dưới đây là cách tạo robots.txt trên máy tính.

Tại màn hình máy tính, slick chuột phải chọn News -> Chọn Text Document:

Tạo tệp text documents
Tạo tệp text documents

Tiến hành thêm các cú pháp cho file: 

User-agent: *
Allow: /

Sitemap: https://maxseo.vn/sitemap_index.xml
Nhập nội dung file robots.txt và lưu file
Nhập nội dung file robots.txt và lưu file

Bấm lưu file với tên mới, các bạn gõ đúng tên robots.txt

Bước 2: Truy cập vào trình quản lý Cpanel của hosting -> Nhập mật khẩu để đăng nhập

Đăng nhập vào trình quản lý hosting Cpanel
Đăng nhập vào trình quản lý hosting Cpanel

Phần này bạn có thể truy cập thông qua trang quản trị của đơn vị cung cấp hosting mà không cần mật khẩu. Sau đó truy cập vào File Manager.

Chọn File Manager để truy cập trình quản lý file trên website
Chọn File Manager để truy cập trình quản lý file trên website

Bước 3: Tìm đến thư mục có tên website hoặc publish_html -> Bấm chọn thêm File và tải lên. Bạn cũng có thể tạo trực tiếp file từ bước này.

tải file robots.txt lên thư mục hosting
Tải file robots.txt lên thư mục hosting, làm lần lượt theo các số 1,2,3

Bước 4: Quay lại website kiểm tra xem file robots.txt đã hiển thị hay chưa. Truy cập https://yourdomain.com/robots.txt

Tạo file robots.txt bằng các plugin seo

Ngoài việc tạo thủ công, bạn cũng có thể tạo bằng các plugin SEO. Max Seo sẽ sử dụng plugin Rank Math SEO để tạo file robots.txt thông qua giao diện quản trị website.

Tạo file robots.txt bằng rank math SEO
Tạo file robots.txt bằng Rank Math SEO

Đăng nhập vào trang quản trị của website:

  1. Chọn Rank Math -> Chọn General Settings
  2. Chọn Edit robots.txt
  3. Nhập cú pháp robots.txt đã chuẩn bị sẵn
  4. Bấm Save Changes để lưu lại.

Lưu ý, với phương pháp này để thực hiện được yêu cầu trên máy chủ chưa có tệp robots.txt nếu có rồi sẽ hiển thị thông báo file robots.txt không thể ghi đè.

Chỉnh file robots txt bằng plugin all in one SEO Pack

Bạn có thể sử dụng plugin all in one SEO để tạo file robots.txt. Vui lòng theo dõi video dưới để biết cách thao tác. 

Các tối ưu file Robots.txt nâng cao:

Google có ngân sách crawl cho mỗi website, không phải là thu thập dữ liệu vô hạn. Điều này không được thừa nhận nhưng Google đã có hướng dẫn về vấn đề này. Có rất nhiều yếu tố ảnh hưởng đến ngân sách crawl của bot ví dụ:

  • Nội dung trùng lặp giữa các trang trên website
  • Nội dung chất lượng thấp
  • Vòng lặp vô hạn
  • Trang hiển thị lỗi mềm
  • Website đang bị tấn công

Ngoài ra, việc để Google Bot lập chỉ mục những trang không quan trọng trên website là một thiếu sót lớn của người làm SEO và robots.txt có thể giúp bạn xử lý chúng. Vậy làm thế nào?

Bước 1: Truy cập Google Search Console

Tối ưu file robots.txt thông qua Google Search Console
Tối ưu file robots.txt thông qua Google Search Console

Bước 2: Vào mục Indexing -> Page -> View data about indexed pages

Kiểm tra thông tin các trang đã index qua Google Page indexing
Kiểm tra thông tin các trang đã index qua Google Page indexing

Bước 3: Lọc lại tất cả các trang không quan trọng đã được index

Đây là bước khá quan trọng, vì bạn phải quyết định xem nên giữ và chặn index nội dung nào trên website. Như bạn đã thấy, google đã lập chỉ mục một số phân trang của tôi dạng https://maxseo.vn/dich-vu-seo-tphcm/page/2/ và một số trang dạng trình chỉnh sửa như https://maxseo.vn/dich-vu/page/2/?et_blog . Đây là các trang không mong muốn, nếu chịu khó tìm kiếm và lọc dữ liệu bạn có thể tìm ra các dạng như tìm kiếm nội bộ, tag sản phẩm, tag bài viết, thậm chí là tag project. Tất cả những nội dung này đều có thể cạnh tranh nội bộ gây giảm sút thứ hạng của bạn.

Bước 4: Thêm chúng vào file robots.txt để thông báo với Google Bot không lập chỉ mục

Chặn các trang không quan trọng lập chỉ mục bằng Robots.txt
Chặn các trang không quan trọng lập chỉ mục bằng Robots.txt

Cách kiểm tra website đã có robots.txt chưa?

Có hai cách để kiểm tra website đã có file robots.txt hay chưa.

Kiểm tra thủ công bằng đường dẫn

Bạn có thể kiểm tra file robots.txt của một website bất kỳ bằng đường dẫn: https://yourdomain.com/robots.txt 

Nếu trả về một trang 404 thì website của bạn chưa có robots.txt, bạn nên tham khảo hướng dẫn trên để thêm robots.txt cho website. Nếu trả về đúng cấu trúc thì chúng mừng, website bạn đã có rồi đấy.

Kiểm tra bằng extension:

Một extension khá hay ho mà Max Seo muốn giới thiệu đến bạn là Robot Checker Exclusion. Với tiện ích này bạn có thể dễ dàng kiểm tra file robots của website bất kỳ. Các bước cài đặt và kiểm tra:

Kiểm tra tệp robots.txt qua extension
Kiểm tra tệp robots.txt qua extension

Bước 1: Tải và cài đặt tiện ích cho Chrome tại đây!

Bước 2: Mở site cần kiểm tra, ấn vào biểu tượng của extension

Bước 3: Kiểm tra chi tiết thông tin mà tiện ích cung cấp

Hạn chế khi sử dụng robots.txt

Mặc dù đã có quy ước chuẩn cho robots.txt tuy nhiên một số công cụ thu thập dữ liệu lại không tuân thủ các hướng dẫn này. Ngoài ra, khi bạn ngăn lập chỉ mục một trang bằng lệnh trên robots.txt nhưng có các liên kết nội bộ trỏ đến trang đó thì bot vẫn sẽ crawl dữ liệu và lập chỉ mục cho trang đã chặn. Vì vậy, cần cân nhắc giữa việc sử dụng tệp robots.txt hay noindex.

Max Seo đã giải thích chi tiết robots.txt là gì? Kèm theo những hướng dẫn để tạo và tối ưu file robots.txt hiệu quả nhất mà chúng tôi đã áp dụng. Nếu có bất kỳ câu hỏi nào, hãy bình luận xuống dưới nhé!

5/5 - (5 bình chọn)
Quốc Bảo
Mình là Quốc Bảo hiện đang là CEO tại Max Seo một công ty chuyên cung cấp dịch vụ seo chuyên nghiệp, uy tín. Mình có nhiều năm kinh nghiệm nghiên cứu và thực chiến SEO đa lĩnh vực. Tự tin có thể giúp website của bạn ranking top cao trên Google.

Đọc tiếp:

Contact Me on Zalo

Pin It on Pinterest