Robots.txt Là Gì? Cách Tối Ưu SEO Và Xác Nhận Robots.txt

File robots.txt điều khiển bot tìm kiếm được hay không được thu thập phần nào của website — cấu hình sai có thể vô tình chặn cả site khỏi Google. Bài viết giải thích robots.txt là gì và cách tối ưu SEO, xác nhận robots.txt.

Robotstxt – Robots.txt là gì?

Đội ngũ SEO Halo Media đã giúp hàng trăm khách hàng leo top với keyword cạnh tranh — bao gồm cả keyword khó như ‘thiết kế website TPHCM’. Kinh nghiệm của chúng tôi: Robots.txt tối ưu SEO và xác nhận Robots.txt không phải ‘silver bullet’ nhưng là yếu tố nền móng — không có thì các kỹ thuật SEO khác đều khó áp dụng hiệu quả.Robots.txt là một tệp văn bản đặt trong thư mục gốc của website, hướng dẫn các công cụ tìm kiếm về các trang mà chúng có thể thu thập và lập chỉ mục.Nếu bạn đã đọc bài viết trước về cách thức hoạt động của các công cụ tìm kiếm, bạn sẽ biết rằng trong quá trình thu thập dữ liệu và lập chỉ mục, các công cụ này sẽ tìm kiếm những trang công khai trên web để đưa vào chỉ mục.Khi truy cập vào một trang web, công cụ tìm kiếm sẽ kiểm tra file robots.txt đầu tiên. Dựa trên các quy tắc trong file này, chúng sẽ xác định danh sách các URL có thể thu thập thông tin và lập chỉ mục trên trang web đó.Tệp robots.txt là công khai trên Internet, và bất kỳ ai cũng có thể xem được nội dung của nó. Vì vậy, đây không phải là nơi để thêm thông tin nhạy cảm mà bạn muốn giữ riêng tư.Nếu không có file robots.txt, các công cụ tìm kiếm sẽ mặc định là có thể truy cập toàn bộ trang web và thu thập dữ liệu từ tất cả các trang công khai để lập chỉ mục.Trường hợp robots.txt không được định dạng đúng, điều này sẽ phụ thuộc vào lỗi cụ thể. Nếu nội dung của file bị lỗi cấu hình, các công cụ tìm kiếm có thể bỏ qua file và tiếp tục thu thập dữ liệu trên toàn bộ trang web.Nếu bạn vô tình ngăn các công cụ tìm kiếm truy cập vào trang web, đó sẽ là một vấn đề nghiêm trọng. Trang web của bạn sẽ không được thu thập dữ liệu và lập chỉ mục, và dần dần các trang đã có trong chỉ mục sẽ bị loại bỏ.

Bạn có nên sử dụng tệp robots.txt không?

Có, ngay cả khi bạn không có ý định ngăn chặn bất kỳ trang hay thư mục nào của trang khỏi kết quả tìm kiếm, việc có tệp robots.txt vẫn là điều cần thiết.Vì sao sử dụng robots.txt?Dưới đây là những lý do phổ biến nhất khi sử dụng robots.txt:1 – Ngăn chặn công cụ tìm kiếm truy cập một số trang hoặc thư mục nhất định của trang web. Ví dụ, trong tệp robots.txt, bạn có thể thấy các dòng “Disallow” được sử dụng để ngăn công cụ tìm kiếm lập chỉ mục những thư mục cụ thể. Bạn có thể dùng ký tự * làm đại diện cho các ký tự khác. Như trong dòng “Disallow: /followerwonk/media*”, tất cả các trang và tệp nằm trong thư mục này đều sẽ bị chặn, chẳng hạn như /followerwonk/halomedia.html hoặc /followerwonk/halomedia2 – Khi trang web lớn, quy trình thu thập và lập chỉ mục có thể tiêu tốn nhiều tài nguyên. Trình thu thập dữ liệu từ công cụ tìm kiếm có thể cố gắng thu thập toàn bộ trang, dẫn đến tải nặng cho máy chủ. Lúc này, robots.txt có thể được sử dụng để giới hạn truy cập vào các phần không quan trọng với SEO, giúp tiết kiệm tài nguyên máy chủ và tăng tốc độ lập chỉ mục.3 – Khi bạn muốn sử dụng URL rút gọn cho các liên kết liên kết của mình. Không giống việc ẩn URL để đánh lừa người dùng hay công cụ tìm kiếm, việc dùng URL rút gọn chỉ nhằm mục đích quản lý dễ dàng hơn cho các liên kết liên kết.Robots.txt là gì? Cách tối ưu SEO và xác nhận Robots.txtHai điều quan trọng về robots.txtĐiều thứ nhất là các quy tắc trong robots.txt chỉ là chỉ thị. Tức là, các công cụ tìm kiếm sẽ cố gắng tuân thủ các quy tắc này. Tuy nhiên, nếu có nội dung không muốn công khai trong chỉ mục, bạn nên bảo vệ thư mục hoặc trang đó bằng mật khẩu.Điều thứ hai là ngay cả khi bạn chặn trang hoặc thư mục qua robots.txt, chúng vẫn có thể xuất hiện trong kết quả tìm kiếm nếu có liên kết từ các trang được lập chỉ mục trước đó Điều này có nghĩa là việc chặn trang trong robots.txt không đảm bảo nó sẽ biến mất hoàn toàn khỏi web. Đôi khi, bạn sẽ thấy các kết quả tìm kiếm hiển thị thông báo “Không có mô tả do bị chặn.”Ngoài ra, bạn có thể thêm thẻ meta trong phần <head> của trang để ngăn chặn lập chỉ mục, như ví dụ dưới đây:<meta name=”robots” content=”noindex”>

Robots.txt hoạt động như thế nào?

Tham khảo: web.dev — Core Web VitalsTệp robots.txt có cấu trúc đơn giản, sử dụng các từ khóa và giá trị nhất định để chỉ định cho trình thu thập dữ liệu của công cụ tìm kiếm biết cách xử lý nội dung của trang web.Các từ khóa phổ biến nhất bao gồm: User-agent, Disallow, Allow, Crawl-delay, và Sitemap.
  • User-agent: Dùng để xác định bot nào được áp dụng các quy định trong robots.txt. Bạn có thể dùng ký tự * để áp dụng cho tất cả các bot hoặc chỉ định cụ thể tên bot. Ví dụ:
User-agent: * – gồm tất cả trình thu thập thông tin của bot. User-agent: Googlebot – chỉ dành cho Google bot.
  • Disallow: Chỉ thị này ngăn các bot đã được xác định không được thu thập dữ liệu một URL hoặc thư mục nào đó. Giá trị của nó có thể là một file, một URL hoặc một thư mục cụ thể. Ví dụ từ Google về cách dùng Disallow:
Robots.txt là gì? Cách tối ưu SEO và xác nhận Robots.txt
  • Allow: Dùng để cho phép bot truy cập vào một thư mục hoặc trang con cụ thể, ngay cả khi thư mục gốc của nó bị chặn. Chỉ thị này chủ yếu được áp dụng cho Googlebot. Ví dụ:
User-agent: * Disallow: /photos Allow: /photos/halomedia/
  • Crawl-delay: Dùng để yêu cầu bot chờ một khoảng thời gian nhất định (tính bằng giây) trước khi thu thập thông tin trang tiếp theo. Lưu ý là Googlebot không hỗ trợ chỉ thị này; bạn có thể điều chỉnh tốc độ thu thập của Google thông qua Google Search Console.
  • Sitemap: Đây là chỉ thị chỉ ra vị trí của sơ đồ trang XML và được các công cụ tìm kiếm lớn hỗ trợ, giúp họ dễ dàng tìm thấy các trang trên website của bạn.
Lưu ý quan trọng là robots.txt phân biệt chữ hoa và chữ thường. Chẳng hạn, nếu bạn viết Disallow: /File.html, thì chỉ đường dẫn sẽ không chặn được file.html (viết thường)
Tạo tệp robots.txt rất đơn giản. Bạn chỉ cần một trình chỉnh sửa văn bản (như Notepad) và quyền truy cập vào các tệp trang web của mình (thông qua FTP hoặc bảng điều khiển quản lý hosting).Trước khi bắt đầu tạo tệp robots.txt, bạn nên kiểm tra xem tệp này đã có sẵn chưa.Để làm điều này, bạn có thể mở trình duyệt và nhập vào thanh địa chỉ: https://www.tênmiền.com/robots.txtNếu thấy nội dung tương tự như dưới đây, thì tệp robots.txt đã tồn tại và bạn có thể chỉnh sửa nó thay vì tạo một tệp mới.
User-agent: * Allow: /
Cách chỉnh sửa tệp robots.txt
  1. Sử dụng phần mềm FTP để kết nối với thư mục gốc của trang web.
  2. Tệp robots.txt thường nằm trong thư mục gốc (có thể là www hoặc public_html, tùy thuộc vào máy chủ).
  3. Tải tệp robots.txt về máy tính và mở bằng trình chỉnh sửa văn bản.
  4. Thực hiện các thay đổi cần thiết và tải tệp đã chỉnh sửa lên máy chủ.
Ví dụ về tệp robots.txt
User-agent: * Allow: / Sitemap: https://example.com/sitemap.xml
Tệp này cho phép tất cả các trình thu thập dữ liệu truy cập trang web mà không giới hạn thư mục hay URL nào. Nó cũng cung cấp vị trí của sơ đồ trang XML để công cụ tìm kiếm dễ dàng tìm thấy.

Cách kiểm tra và cấu hình cho robots.txt?

Nếu bạn đang triển khai dự án website mới, tham khảo Dịch vụ thiết kế Website chuẩn SEO của Halo Media — chúng tôi đã ứng dụng các best practices trong bài này cho 500+ khách hàng.Mặc dù bạn có thể truy cập tệp robots.txt bằng cách mở URL trực tiếp, nhưng cách tốt nhất để kiểm tra và xác nhận nó là sử dụng công cụ kiểm tra robots.txt trong Google Search Console.
  1. Truy cập Google Search Console: Đăng nhập vào tài khoản của bạn tại Google Search Console.
  2. Chọn trang web của bạn: Trong bảng điều khiển, chọn trang web bạn muốn kiểm tra.
  3. Chọn vào phần cài đặt ở Console: Ở phần cài đặt sẽ có báo cáo về file Robots ở đó bấm vào nút mở báo cáo là có thể xem được thông tin
  4. Xem lại các chặn robots.txt nếu cần: Nếu một URL quan trọng bị chặn, bạn có thể cập nhật tệp robots.txt bằng cách chỉnh sửa các quy tắc để đảm bảo các trang quan trọng được cho phép lập chỉ mục.
  5. Tải lại tệp robots.txt lên máy chủ: Sau khi chỉnh sửa, tải tệp mới lên thư mục gốc của trang web (thường là thư mục public_html).
  6. Thông báo cho Google về tệp robots.txt mới: Sau khi cập nhật, bạn có thể yêu cầu Google thu thập dữ liệu lại trang web bằng cách chọn Yêu cầu lập chỉ mục trong Kiểm tra URL.
Robots.txt là gì? Cách tối ưu SEO và xác nhận Robots.txtRobots.txt là gì? Cách tối ưu SEO và xác nhận Robots.txtLưu ý:
  • Để đảm bảo Google phát hiện nhanh các thay đổi, hãy sử dụng nút Yêu cầu lập chỉ mục cho những trang bị chặn trước đó.
  • Các thay đổi trong tệp robots.txt có thể mất một chút thời gian để Google cập nhật trong chỉ mục của mình.
Bằng cách sử dụng Google Search Console, bạn có thể dễ dàng kiểm tra và đảm bảo rằng các quy tắc trong tệp robots.txt phù hợp với mục tiêu SEO của trang web.

Robots.txt với WordPress?

Robots.txt là một công cụ quan trọng cho mọi trang web, bao gồm cả các trang WordPress. Đặc điểm cần chú ý về tệp robots.txt trong WordPress như sau:Mặc định, WordPress tạo ra một tệp robots.txt ảo, nghĩa là bạn không thể tìm thấy nó trong thư mục gốc của website hoặc chỉnh sửa trực tiếp. Để kiểm tra nội dung tệp này, bạn chỉ cần truy cập vào đường dẫn https://www.tênmiền.com/robots.txt trong trình duyệt.Cấu hình mặc định của tệp robots.txt trong WordPress thường là:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php
Nếu bạn sử dụng plugin Yoast SEO, việc chỉnh sửa tệp robots.txt sẽ trở nên đơn giản hơn. Bạn chỉ cần vào mục SEO -> Tools -> File editor trong Yoast SEO để thay đổi nội dung tệp và lưu lại.Một lưu ý khác khi thiết lập WordPress là trong giai đoạn phát triển, bạn có thể chọn chặn các công cụ tìm kiếm để chúng không lập chỉ mục cho trang web. Sau khi hoàn thiện trang web, bạn có thể bật lại để công cụ tìm kiếm truy cập và lập chỉ mục bình thường.Robots.txt là gì? Cách tối ưu SEO và xác nhận Robots.txtNgoài ra, trong phần cài đặt “Đọc” (Reading) của WordPress, nếu bạn tích chọn ô chặn công cụ tìm kiếm, các công cụ tìm kiếm sẽ không thể truy cập và lập chỉ mục trang web của bạn.

Robots.txt tốt giúp hỗ trợ SEO như thế nào?

Một tệp robots.txt tối ưu cho SEO nên được cấu hình sao cho các công cụ tìm kiếm có thể truy cập đầy đủ các phần cần thiết của trang web.Đảm bảo rằng bạn không chặn bất kỳ phần nào mà bạn muốn các công cụ tìm kiếm lập chỉ mục. Đặc biệt, tránh chặn thư mục CSS và JS, vì Google có thể xem trang web như một người dùng thực. Nếu các trang của bạn cần tệp JS và CSS để hiển thị đúng, hãy đảm bảo chúng không bị chặn trong robots.txt.Đối với các trang WordPress, thông thường không cần chặn các thư mục như wp-admin hay wp-include. WordPress đã tích hợp sẵn thẻ meta robots để kiểm soát việc lập chỉ mục các khu vực nhạy cảm, nhưng nếu chặn các thư mục này, cũng không ảnh hưởng gì.Cuối cùng, tránh thiết lập các quy tắc riêng cho từng công cụ tìm kiếm. Điều này có thể gây phức tạp và khó duy trì. Tốt nhất, sử dụng cú pháp User-agent: * và đưa ra một bộ quy tắc chung áp dụng cho tất cả các bot tìm kiếm.

KẾT LUẬN

Tóm lại, bạn không cần đầu tư quá nhiều thời gian vào việc cấu hình robots.txt. Điều cần thiết là đảm bảo có tệp này và sử dụng Công cụ Quản trị Trang web của Google để xác minh rằng bạn không chặn nhầm trình thu thập thông tin của các công cụ tìm kiếm.Đây là một bước nên thực hiện ngay khi bạn khởi tạo trang web hoặc là một phần trong kiểm tra kỹ thuật SEO ban đầu của trang.Chúc các bạn có 1 trải nghiệm tốt và mong muốn khi đọc bài viết này và khắc phục các vấn đề gặp phải!!

Bài viết cùng chủ đề

Halo Media checklist robots.txt cho website production

Trong dịch vụ thiết kế Website chuẩn SEO, Halo Media cấu hình robots.txt theo checklist 8 mục dưới đây cho mọi khách hàng:
  1. Allow root / — cho phép crawl toàn bộ website mặc định
  2. Disallow /wp-admin/ — chặn crawl admin (riêng /wp-admin/admin-ajax.php phải allow vì plugin dùng)
  3. Disallow /wp-includes/ — file system core, không cần crawl
  4. Disallow /?s=* — chặn search results pages (duplicate content)
  5. Disallow /trackback/ — outdated WordPress feature, không cần index
  6. Disallow /*?replytocom* — comment reply parameter, gây thin content
  7. Allow /wp-content/uploads/ — quan trọng cho image SEO
  8. Sitemap declaration — link đến XML sitemap chính (Rank Math hoặc Yoast)

Lỗi robots.txt thường gặp Halo Media đã sửa cho khách hàng

Top 5 lỗi robots.txt phổ biến nhất chúng tôi phát hiện khi audit website khách hàng:
  • Disallow / accidentally — block toàn site khỏi Google. Thường do dev quên sửa lại sau khi develop trên staging.
  • Block CSS/JS files — Google cần CSS/JS để render mobile-friendly check. Block sẽ fail mobile test.
  • Sai cú pháp wildcard — robots.txt chỉ support * và $, không phải full regex.
  • Conflict với meta robots noindex — robots.txt block crawl, nhưng noindex meta vẫn được respect nếu URL có backlink → URL vẫn appear trong SERP nhưng không có content.
  • Forget to update sitemap URL — khi đổi domain hoặc cấu trúc URL, robots.txt vẫn point đến sitemap cũ.

Câu hỏi thường gặp

Robots.txt là tệp văn bản đặt trong thư mục gốc của website, hướng dẫn bot tìm kiếm được phép thu thập và lập chỉ mục những trang nào. Khi truy cập một site, công cụ tìm kiếm sẽ kiểm tra file này đầu tiên rồi mới quyết định crawl. Nếu không có file, Google mặc định crawl toàn bộ trang công khai.
Có, một dòng ‘Disallow: /’ đặt nhầm sẽ chặn toàn bộ website khỏi Google, lỗi nghiêm trọng thường do dev quên gỡ sau khi develop trên staging. Khi đó site không được thu thập, các trang đã index dần bị loại bỏ. Vì vậy luôn kiểm tra lại robots.txt ngay sau khi lên production.
Cách tốt nhất là dùng công cụ kiểm tra robots.txt trong Google Search Console thay vì chỉ mở URL trực tiếp. Bạn vào phần cài đặt để xem báo cáo file robots, chỉnh sửa quy tắc nếu một URL quan trọng bị chặn, tải lại file lên thư mục gốc, rồi dùng nút Yêu cầu lập chỉ mục để Google cập nhật nhanh.
WordPress mặc định tạo một robots.txt ảo, không nằm trong thư mục gốc và không sửa trực tiếp được, bạn xem nội dung qua đường dẫn tênmiền.com/robots.txt. Cấu hình mặc định thường chặn /wp-admin/ và cho phép admin-ajax.php. Dùng plugin như Yoast SEO hay Rank Math sẽ giúp chỉnh sửa file dễ dàng hơn.
Tham khảo: Google Search Central

Bài viết & dịch vụ liên quan

Đánh giá

Bài viết liên quan

7 Cách Giúp Google Index Website Nhanh Hơn 2026

Bài viết mới đăng nhưng mãi không thấy trên Google? Tốc độ index quyết định

Hướng dẫn cài Bing Webmaster Tools cho Website WordPress

Khi làm SEO cho website WordPress, nhiều người thường chỉ tập trung vào Google Search

Google My Business Là Gì? Cách Tạo & Xác Minh Địa Điểm

Một website có traffic cao nhưng không track được = không thể đo ROI =

Hướng Dẫn Cài Google Search Console Cho Web WordPress

Một website có traffic cao nhưng không track được = không thể đo ROI =

Hướng Dẫn Cài Google Analytics Cho Web WordPress

Một website không đo được dữ liệu thì không thể tối ưu — bạn sẽ

PageSpeed Insights? Cách Tối Ưu Hiệu Suất Website Từ A-Z

Tốc độ tải trang ảnh hưởng trực tiếp đến SEO và tỷ lệ chuyển đổi

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *