Robots txt là gì? Tạo dữ liệu này ảnh hưởng như thế nào tới việc Googlebot nhanh Index hoặc không? Làm cách nào để mọi người thiết lập cấu trúc cơ bản của tập thông tin hoàn chỉnh? Qua bài viết dưới đây các bạn sẽ được giải đáp mọi thắc mắc và hướng dẫn những bước cụ thể. Hãy cùng tham khảo ngay thông tin chi tiết nhé!
1. File robots txt là gì?
Robots txt là một File văn bản đơn giản dưới dạng .txt. Dữ liệu của một phần Robots Exclusion Protocol chứa các tiêu chuẩn Web quy định cách Robot thu thập thông tin, truy cập, Index nội dung và cung cấp mọi thứ cho người dùng. REP cũng chứa những lệnh như Meta Robots, Page-Subdirectory và Site-Wide Instructions.

Nhiệm vụ của REP sẽ hướng dẫn công cụ của Google xử lý các liên kết, ví dụ: Follow hay Nofollow Link. Trên thực tế, nhà quản trị giúp các Web linh hoạt hơn bằng việc tạo dữ liệu Robots. Bên cạnh đó, con Bot của công cụ Google sẽ nằm dưới sự kiểm soát rằng có được phép Index một số phần nào đó trong trang cụ thể hay không.
2. Cú pháp của file robots txt
Các cú pháp được cho là những ngôn ngữ cụ thể của tập tin robots txt. 5 thuật ngữ phổ biến mà mọi người sẽ thường thấy trong một file dữ liệu là: User-agent, Disallow, Allow, Crawl-delay và Sitemap. Trong phần tiếp theo SEODO và bạn sẽ tìm hiểu kỹ hơn về nội dung này.
2.1 Pattern – Matching
Thực tế các file robots khá phức tạp để bạn có thể ngăn cản hoặc cho phép Bot sử dụng tính năng Pattern-Matching và bao quát các tùy chọn của URL. Tất cả các tool của Google và Bing giúp sử dụng 2 biểu thức chính để xác định một trang hay thư mục con mà SEO muốn loại bỏ. Hai ký tự này là:
*
Đại diện cho bất kỳ chuỗi ký tự nào, được áp dụng cho Bots của các công cụ Google.$
Ký tự phù hợp với URL của phần cuối.
2.2 Định dạng cơ bản của file robots txt
Tệp Robots có định dạng cơ bản sau:
User-agent:
Disallow:
Allow:
Crawl-delay:
Sitemap:
Tuy nhiên, người dùng có thể bỏ qua các phần Crawl-delay
và Sitemap
. Trong thực tế thì tập tin chứa nhiều dòng User-agent
và nhiều chỉ thị của user hơn. Chẳng hạn các loại lệnh như: Disallow
, Allow
, Crawl-delay
, … Trong file dữ liệu, bạn chỉ định cho nhiều con Bot khác nhau. Mỗi lệnh thường được viết tách biệt, cách nhau bởi 1 dòng hoặc viết liên tục không xuống hàng tùy thuộc vào sự sắp xếp của quản trị viên.
2.3 File robots txt chuẩn
Để ngăn cản tất cả các Web Crawler không được lấy bất kỳ dữ liệu nào trên website bao gồm cả trang chủ, các bạn hãy làm theo cú pháp sau:
User-agent: *
Disallow: /
Người dùng có thể cho phép mọi trình thu thập thông tin truy cập vào các nội dung trên Website bao gồm cả trang chủ. bằng thuật toán sau:
User-agent: *
Disallow:
Nhằm chặn trình thu thập, tìm kiếm thông tin của Google (User-agent: Googlebot) tránh lấy những trang có chứa chuỗi URL www.example.com/example-subfolder/, mọi người hãy sử dụng cú pháp sau:
User-agent: Googlebot
Disallow: /example-subfolder/
Để ngăn trình thu thập thông tin của Bing (User-agent: Bing) không có được dữ liệu trên trang cụ thể tại www.example.com/example-subfolder/blocked-page,các bạn hãy sử dụng cú pháp sau:
User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html

3. Tại sao bạn cần tạo file robots txt?
Tệp robots kiểm soát quyền truy cập của trình thu thập thông tin ở các khu vực nhất định trên trang Web. Mặc dù điều này có thể gây nguy hiểm nếu bạn vô tình không để Googlebot thu thập dữ liệu toàn bộ Website nhưng có một số trường hợp mà tập robots txt có thể rất hữu ích. Cụ thể là:
- Ngăn nội dung trùng lặp-Duplicate Content xuất hiện trong SERPs (lưu ý rằng meta robots thường là lựa chọn tốt hơn).
- Giữ toàn bộ các mục của trang Web ở trạn thái riêng tư. Ví dụ: Trang mạng của nhóm kỹ sư.
- Giữ cho các trang kết quả tìm kiếm nội bộ không xuất hiện trên SERP công khai.
- Chỉ định vị trí của sitemap(s).
- Ngăn các công cụ tìm kiếm khỏi Index các tệp nhất định trên một Website cụ thể (hình ảnh, PDFs,…).
- Chỉ định độ trễ lúc thu thập thông tin để ngăn máy chủ bị quá tải khi Crawlers chạy nhiều phần nội dung cùng một lúc.

4. Trình thu thập dữ liệu của Google hỗ trợ những lệnh nào?
Để Google có thể thu thập dữ liệu hiệu quả trên website của bạn, cần nắm rõ các lệnh mà trình thu thập dữ liệu của Google hỗ trợ. Google là công cụ chính trong việc khai báo và tối ưu hóa SEO cho website, và các lệnh quan trọng bao gồm:
4.1. User-Agent:
Đây là lệnh bắt buộc và phải có ít nhất một lần trong mỗi nhóm lệnh. User-Agent quy định tên của trình thu thập dữ liệu tự động mà Google sử dụng (còn gọi là Googlebot). Đây là lệnh đầu tiên trong mỗi nhóm quy tắc và được dùng để xác định trình thu thập dữ liệu nào sẽ tuân thủ theo các quy tắc đi kèm. Danh sách User-Agent của Google bao gồm tên của các trình thu thập như Googlebot hay AdsBot, và sử dụng dấu hoa thị (*) để đại diện cho tất cả các trình thu thập dữ liệu, ngoại trừ AdsBot, vì AdsBot phải được chỉ rõ.
4.2. Disallow:
Yêu cầu ít nhất một mục disallow hoặc allow trong mỗi nhóm quy tắc. Disallow chỉ định thư mục hoặc trang (tương đối với miền gốc) mà bạn không muốn trình thu thập dữ liệu truy cập. Nếu áp dụng với một trang cụ thể, cần ghi rõ tên trang chính xác như trong trình duyệt. Quy tắc này phải bắt đầu bằng ký tự “/” và nếu muốn chặn cả một thư mục, thư mục đó cần kết thúc bằng dấu “/”.
4.3. Allow:
Cũng yêu cầu ít nhất một mục disallow hoặc allow. Lệnh này cho phép thu thập dữ liệu trên một thư mục hoặc trang cụ thể dù nó nằm trong một thư mục bị Disallow. Quy tắc này ghi đè lên Disallow, cho phép Google thu thập dữ liệu các trang hoặc thư mục con cần thiết. Nếu áp dụng cho một trang cụ thể, hãy ghi rõ tên trang như trong trình duyệt, và tương tự như Disallow, quy tắc bắt đầu bằng ký tự “/” và kết thúc bằng “/” nếu áp dụng cho thư mục.
4.4. Sitemap:
Đây là lệnh tùy chọn trong tệp. Lệnh này chỉ định vị trí của sơ đồ trang web, cung cấp cho Google một bản đồ giúp định hướng nội dung cần thu thập dữ liệu, thay vì xác định các nội dung có được phép truy cập hay không. Sơ đồ trang web được ghi dưới dạng URL đầy đủ, và giúp Google hiểu rõ các nội dung quan trọng cần thu thập dữ liệu trên website.
5. Công dụng và hạn chế của robots txt
Công cụ cho phép Bot của công cụ tìm kiếm được xâm nhập vào dữ liệu nào và không vào tập tin nào. Từ đó, việc lập chỉ mục được chính xác hơn và trang Web có thể Index nhanh hơn. Có thể thấy, File đem lại rất nhiều công dụng nhưng bên cạnh đó cũng tồn tại những hạn chế. Trong nội dung dưới đây hãy cùng SEODO tìm hiểu đó là gì.
5.1 Công dụng của robots txt
Các bạn hãy cùng tìm hiểu lợi ích của tập robot txt là gì?
5.1.1 Chặn công cụ tìm kiếm khi Website chưa hoàn thiện
Trong quá trình mới xây dựng và hoạt động thử Website, bạn cần thời gian để hoàn thiện cấu trúc và nội dung. Chính vì vậy, quản trị viên không muốn các trình duyệt truy cập và Index trang mạng lúc này. Việc này không giúp ích cho SEO và chất lượng web có thể bị đánh giá thấp. Tệp robots txt hỗ trợ User ngăn chặn những nguy cơ cao.

5.1.2 Chặn trang tìm kiếm với các kết quả xấu
Một Website muốn phát triển tốt, quản trị viên cần Google đánh giá URL có lợi. Vì vậy, vấn đề thiết lập các tiêu chuẩn cho trình tìm kiếm sẽ giúp ngăn cản các URL không đạt chuẩn và gây hại đến quá trình hoạt động của trang mạng.
5.1.3 Chặn các công cụ thu thập liên kết website
Một số công cụ nghiên cứu từ khóa như Ahref, Top page, Organic Keyword,… giúp User thu thập dữ liệu trang chỉ với địa chỉ Website. Tuy nhiên, điều này khiến đối thủ có thể biết thông tin và phân tích về Web của bạn. Từ đó “bắt chước” nội dung hoặc cạnh tranh với các từ khóa trên TOP để khắc phục vấn đề mọi người cần sử dụng các lệnh chặn.

5.2 Hạn chế của robots txt
Ưu điểm của robots txt có nhiều đặc điểm nổi bật. Tuy nhiên, nội dung tiếp theo SEODO sẽ đề cập tới những mặt còn tồn tại của file dữ liệu Robots. Cùng xem ngay nhé!
5.2.1 Không phải tất cả các trình duyệt tìm kiếm đều hỗ trợ các lệnh trong tệp robots txt
Các tiêu chuẩn trên tệp Robots khi được cài đặt không áp dụng cho tất cả Bot của các công cụ tìm kiếm. Một số trình thu thập thông tin có quyền chọn tuân theo tập hoặc không. Do vậy, phương pháp bảo mật dữ liệu tốt nhất chính là sử dụng mật khẩu cho các File riêng tư trên máy chủ.
5.2.2 Mỗi trình dữ liệu có cú pháp phân tích dữ liệu riêng
Một số trình dữ liệu chất lượng sẽ tuân theo quy chuẩn của các lệnh trong tệp. Tuy nhiên, phương thức giải trình dữ liệu của mỗi công cụ tìm kiếm khác nhau. Có những trình sẽ không thể nhận biết được câu lệnh cài trong tệp Robots. Do đó, quản trị viên cần nắm rõ cú pháp cho từng cách thu thập dữ liệu trên Website.

5.2.3 Google vẫn có thể index các trang bị tệp robots txt chặn
Với trường hợp bạn đã ngăn cản một URL hoặc File trên Web nhưng vấn đề đó vẫn xuất hiện trên trang khác thì Google vẫn có thể đọc được và lập chỉ mục. Nội dung trong dữ liệu vẫn sẽ được phát hiện khi tìm kiếm. Nếu URL đó chưa thật sự cần thiết bạn có thể xóa toàn bộ URL trên trang mạng để bảo mật cao nhất.
6. File robots txt nằm ở đâu trên một website?
Khi bạn xây dựng Website WordPress, hệ thống sẽ tự động tạo ra một File Robot.txt nằm dưới thư mục gốc của server. Ví dụ: Nếu Site đặt trong Folder ban đầu của địa chỉ seodo.com, User có thể truy cập tập tin ở đường dẫn seodo.com/robots txt, kết quả hiển thị sẽ tương tự như sau:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Phần sau User-agent: dấu * có nghĩa là quy định được sử dụng cho mọi loại Bots trên Website. Với trường hợp này, File sẽ nói cho Bots không được phép vào trong dữ liệu thư mục wp-admin và wp-includes. Chính vì vậy 2 Folder này chứa rất nhiều tập thông tin nhạy cảm. Để tạo Robots txt cho riêng biệt thì bạn cần một mục mới để thay thế cái cũ.
7. Làm thế nào để kiểm tra website có file robots txt không?
Nếu người dùng đang phân vân không biết Website của bản thân có tệp robots txt không thì hãy nhập Root Domain và thêm /robots txt vào cuối URL. Nếu bạn không có .txt xuất hiện thì chắc rằng trang mạng bạn đã không tạo cho WordPress. Tương tự, user có thể kiểm tra seodo.com có tạo File hay không bằng cách như sau: Nhập Root Domain (seodo.com) > điền /robots txt vào cuối > Nhấn Enter và đợi kết quả.

8. Quy tắc nào cần được bổ sung vào trong file robots txt WordPress?
Hiện tại, hệ thống đều xử lý một quy tắc tại một thời điểm. Tuy nhiên, nếu bạn muốn áp dụng điều khoản khác nhau cho Bot thì chỉ cần thêm từng nội dung trong phần khai báo User-agent. Ví dụ: Nếu người dùng muốn thiết lập tiêu chuẩn để áp dụng với mọi Bot và mặt khác chỉ dành cho Bingbot, bạn có thể thực hiện như sau:
User-agent: *
Disallow: /wp-admin/
User-agent: Bingbot
Disallow: /

9. Tìm hiểu 3 Cách tạo file robots txt WordPress chuẩn SEO 2022
Khi kiểm tra, bạn thấy rằng Website không có tệp robots txt hay User muốn thay đổi thì có thể tham khảo 3 cách dùng cho WordPress dưới đây:
9.1 Sử dụng Yoast SEO
Bạn có thể điều chỉnh hoặc tạo File txt cho WordPress trên chính Dashboard với cách thực hiện đơn giản. Quản trị viên tiến hành đăng nhập vào Website sau đó nhìn bên trái màn hình, nhấn vào SEO > Tools > File editor.

Tính năng File Editor sẽ không hiển thị nếu WordPress của bạn vẫn chưa được kích hoạt trình quản lý File. Do dó, quản trị viên hãy kích hoạt thông qua File Transfer Protocol – Giao thức truyền tập tin. Khi đó, User sẽ thấy mục robots txt và .htaccess file, nơi giúp tạo dữ liệu.
9.2 Sử dụng bộ Plugin All in One SEO
Ngoài ra, User có thể sử dụng bộ Plugin All in One SEO để tạo File Robot.txt. Đây cũng là một plugin tiện lợi cho WordPress. Để tạo Robots, bạn phải truy cập giao diện chính của Plugin All in One SEO Pack. Tiếp theo, người dùng chọn All in One SEO > Features Manager > Nhấp Active cho mục Robots txt. Lúc này, trên màn hình sẽ xuất hiện nhiều tính năng thú vị.

Khi đó, mục robots txt sẽ hiển thị như một Tab mới trong thư mục lớn All in One SEO. Quản trị viên có thể thiết lập cũng như thay đổi File tại đây.
9.3 Tạo rồi upload file robots txt qua FTP
Nếu bạn không muốn sử dụng plugin để tạo File Robots WordPress thì có thể tự thiết lập thủ công. User chỉ cần sử dụng Notepad hoặc Textedit để tạo mẫu theo Rule đã đề cập. Sau đó, người dùng upload qua FTP mà không cần Plugin, quá trình này rất đơn giản và không tốn quá nhiều thời gian.
10. Robots txt vs meta robots vs x-robots
Trên hệ thống có nhiều loại robots. Đầu tiên, robots txt là một tệp văn bản thực, trong khi meta và x-robot là các lệnh Meta. Bên cạnh đó, cả ba đều có nhiệm vụ và chức năng khác nhau. Robots txt ra lệnh thu thập thông tin trên toàn bộ trang Web hoặc thư mục, trong khi Meta và x-robots có thể lập chỉ mục ở cấp độ trang riêng lẻ (hoặc phần tử trang).

Trên đây là tất cả nội dung về chủ đề “File robots txt là gì? 3 cách tạo robots.txt chuẩn SEO. Hy vọng rằng qua bài viết các bạn có thể đã nắm rõ về tập tin này và cách sử dụng để có thể tối ưu trang Web theo chuẩn SEO. Nếu có bất kỳ những thắc mắc nào liên quan tới các hoạt động trên Website, hãy liên hệ ngay với SEODO để được tư vấn nhé!
Chinh phục top Google nhờ những phương pháp SEO kỹ thuật trong các bài viết sau đây:
- Slug là gì? Cách tối ưu Slug cho SEO
- Cách Submit Url lên Google đơn giản và nhanh chóng
- Tổng hợp 10 cách tối ưu tăng tốc website WordPress updated 2024
- Technical SEO: Chuẩn Hóa SEO Kỹ Thuật Cập Nhật Năm 2024