Kiểm tra file robots.txt là yêu cầu quan trọng đối với checklist SEO Technical cho một website. Thế nhưng bạn đã biết robots.txt là gì? Làm sao để tạo một file robots txt chuẩn? Cùng Max Seo tìm hiểu chi tiết qua bài viết sau đây.
File robots.txt là gì?
Robots.txt là một tập tin nằm trên thư mục gốc của website cung cấp hướng dẫn cho bot của các công cụ tìm kiếm về các trang hoặc phần của trang web có thể hay không thể thu thập thông tin hoặc lập chỉ mục. File robots.txt là một công cụ quan trọng đối với quản trị viên web và chuyên gia SEO.
Đường dẫn truy cập tệp robots.txt của một website bất kỳ:
https://yourdomain.com/robots.txt

Tại sao bạn cần tạo file robots.txt?
Mục đích của tệp robots.txt là để giữ bí mật thông tin cá nhân và ngăn các công cụ tìm kiếm lập chỉ mục nội dung trùng lặp hoặc các trang chất lượng thấp có thể gây hại cho vị trí của trang web trong kết quả của công cụ tìm kiếm. Tệp cũng có thể được sử dụng để ngăn bot lập chỉ mục một số trang hoặc thư mục không liên quan.

Việc không bao gồm tệp robots.txt trên một trang web có thể khiến các công cụ tìm kiếm truy cập vào các khu vực mà chủ sở hữu trang web không muốn hoặc hướng lưu lượng truy cập đến các trang không quan trọng.
Cú pháp của file robots.txt
Dưới đây là những cú pháp mà bạn nên hiểu trước khi tạo tệp robots cho website wordpress của mình:
- User-agent: là cú pháp để chỉ định bot của trình thu thập dữ liệu. Ví dụ: GoogleBot, BingBot, Baiduspider…
- Disallow: là cú pháp để thông báo rằng các bot của công cụ tìm kiếm không được thu thập dữ liệu từ dòng này trở đi.
- Allow: là cú pháp để chỉ định bot tìm kiếm được phép thu thập dữ liệu từ dòng này trở đi.
- Crawl-delay: là cú pháp để hướng dẫn cho các công cụ tìm kiếm trì hoãn việc thu thập dữ liệu trong một thời gian nhất định giúp giảm tải cho máy chủ. Hiện nay một số công cụ tìm kiếm không tuân thủ theo cú pháp Crawl-delay và định nghĩa của cú pháp này đối với các công cụ tìm kiếm cũng khác nhau. Ví dụ: Crawl-Delay: 10 (trì hoãn thu thập dữ liệu trong 10s).
- Sitemap: dùng để khai báo đường dẫn của tệp robots.txt trên website.
Ngoài ra, để ngăn chặn một thư mục hoặc một tập hợp url chứa các thành phần giống nhau bạn có thể sử dụng các tùy chọn Pattern-Matching để hướng dẫn cho bot tìm kiếm.
Ví dụ:
Bạn muốn chặn tất cả các công cụ tìm kiếm lập chỉ mục tìm kiếm nội bộ bạn nên sử dụng cú pháp sau:
User-agent: *
Disallow: /?s=*
Mẫu file robots.txt chuẩn:
Dưới đây là mẫu tệp robots.txt chuẩn bạn có thể tham khảo để tạo cho website của mình.
User-agent: * Allow: /
Disallow: /?s=* Disallow: /*/search/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/
Sitemap: https://maxseo.vn/sitemap_index.xml
*Lưu ý: Thay sitemap bằng đường dẫn sitemaps của website bạn.
Hướng dẫn cách tạo robots.txt chi tiết
Có rất nhiều cách để tạo file robots.txt, trong đó có 2 cách phổ biến nhất là tạo file robots.txt thủ công và tải lên máy chủ. Hoặc tạo và chỉnh sửa file robots.txt thông qua plugin SEO.
Tạo tệp robots.txt thủ công
Ở hướng dẫn này, Max Seo sẽ hướng dẫn bạn tạo trực tiếp trên hosting sử dụng Cpanel.
Bước 1: Tạo file robots.txt
Ở bước này, bạn có thể tạo trực tiếp qua trình chỉnh sửa của hosting hoặc tạo từ máy tính để tải lên. Bước tạo trực tiếp trên hosting Max Seo sẽ cập nhật trong các bước tiếp theo. Dưới đây là cách tạo robots.txt trên máy tính.
Tại màn hình máy tính, slick chuột phải chọn News -> Chọn Text Document:

Tiến hành thêm các cú pháp cho file:
User-agent: * Allow: / Sitemap: https://maxseo.vn/sitemap_index.xml

Bấm lưu file với tên mới, các bạn gõ đúng tên robots.txt
Bước 2: Truy cập vào trình quản lý Cpanel của hosting -> Nhập mật khẩu để đăng nhập

Phần này bạn có thể truy cập thông qua trang quản trị của đơn vị cung cấp hosting mà không cần mật khẩu. Sau đó truy cập vào File Manager.

Bước 3: Tìm đến thư mục có tên website hoặc publish_html -> Bấm chọn thêm File và tải lên. Bạn cũng có thể tạo trực tiếp file từ bước này.

Bước 4: Quay lại website kiểm tra xem file robots.txt đã hiển thị hay chưa. Truy cập https://yourdomain.com/robots.txt
Tạo file robots.txt bằng các plugin seo
Ngoài việc tạo thủ công, bạn cũng có thể tạo bằng các plugin SEO. Max Seo sẽ sử dụng plugin Rank Math SEO để tạo file robots.txt thông qua giao diện quản trị website.

Đăng nhập vào trang quản trị của website:
- Chọn Rank Math -> Chọn General Settings
- Chọn Edit robots.txt
- Nhập cú pháp robots.txt đã chuẩn bị sẵn
- Bấm Save Changes để lưu lại.
Lưu ý, với phương pháp này để thực hiện được yêu cầu trên máy chủ chưa có tệp robots.txt nếu có rồi sẽ hiển thị thông báo file robots.txt không thể ghi đè.
Chỉnh file robots txt bằng plugin all in one SEO Pack
Bạn có thể sử dụng plugin all in one SEO để tạo file robots.txt. Vui lòng theo dõi video dưới để biết cách thao tác.
Các tối ưu file Robots.txt nâng cao:
Google có ngân sách crawl cho mỗi website, không phải là thu thập dữ liệu vô hạn. Điều này không được thừa nhận nhưng Google đã có hướng dẫn về vấn đề này. Có rất nhiều yếu tố ảnh hưởng đến ngân sách crawl của bot ví dụ:
- Nội dung trùng lặp giữa các trang trên website
- Nội dung chất lượng thấp
- Vòng lặp vô hạn
- Trang hiển thị lỗi mềm
- Website đang bị tấn công
Ngoài ra, việc để Google Bot lập chỉ mục những trang không quan trọng trên website là một thiếu sót lớn của người làm SEO và robots.txt có thể giúp bạn xử lý chúng. Vậy làm thế nào?
Bước 1: Truy cập Google Search Console

Bước 2: Vào mục Indexing -> Page -> View data about indexed pages

Bước 3: Lọc lại tất cả các trang không quan trọng đã được index
Đây là bước khá quan trọng, vì bạn phải quyết định xem nên giữ và chặn index nội dung nào trên website. Như bạn đã thấy, google đã lập chỉ mục một số phân trang của tôi dạng https://maxseo.vn/dich-vu-seo-tphcm/page/2/ và một số trang dạng trình chỉnh sửa như https://maxseo.vn/dich-vu/page/2/?et_blog . Đây là các trang không mong muốn, nếu chịu khó tìm kiếm và lọc dữ liệu bạn có thể tìm ra các dạng như tìm kiếm nội bộ, tag sản phẩm, tag bài viết, thậm chí là tag project. Tất cả những nội dung này đều có thể cạnh tranh nội bộ gây giảm sút thứ hạng của bạn.
Bước 4: Thêm chúng vào file robots.txt để thông báo với Google Bot không lập chỉ mục

Cách kiểm tra website đã có robots.txt chưa?
Có hai cách để kiểm tra website đã có file robots.txt hay chưa.
Kiểm tra thủ công bằng đường dẫn
Bạn có thể kiểm tra file robots.txt của một website bất kỳ bằng đường dẫn: https://yourdomain.com/robots.txt
Nếu trả về một trang 404 thì website của bạn chưa có robots.txt, bạn nên tham khảo hướng dẫn trên để thêm robots.txt cho website. Nếu trả về đúng cấu trúc thì chúng mừng, website bạn đã có rồi đấy.
Kiểm tra bằng extension:
Một extension khá hay ho mà Max Seo muốn giới thiệu đến bạn là Robot Checker Exclusion. Với tiện ích này bạn có thể dễ dàng kiểm tra file robots của website bất kỳ. Các bước cài đặt và kiểm tra:

Bước 1: Tải và cài đặt tiện ích cho Chrome tại đây!
Bước 2: Mở site cần kiểm tra, ấn vào biểu tượng của extension
Bước 3: Kiểm tra chi tiết thông tin mà tiện ích cung cấp
Hạn chế khi sử dụng robots.txt
Mặc dù đã có quy ước chuẩn cho robots.txt tuy nhiên một số công cụ thu thập dữ liệu lại không tuân thủ các hướng dẫn này. Ngoài ra, khi bạn ngăn lập chỉ mục một trang bằng lệnh trên robots.txt nhưng có các liên kết nội bộ trỏ đến trang đó thì bot vẫn sẽ crawl dữ liệu và lập chỉ mục cho trang đã chặn. Vì vậy, cần cân nhắc giữa việc sử dụng tệp robots.txt hay noindex.
Max Seo đã giải thích chi tiết robots.txt là gì? Kèm theo những hướng dẫn để tạo và tối ưu file robots.txt hiệu quả nhất mà chúng tôi đã áp dụng. Nếu có bất kỳ câu hỏi nào, hãy bình luận xuống dưới nhé!