Google thay đổi thuật toán liên tục, nhưng Robots.txt tối ưu SEO và xác nhận Robots.txt vẫn là yếu tố cốt lõi không đổi từ 2015 đến nay. Bài này tổng hợp kiến thức cập nhật 2026 — thực sự áp dụng được, không lý thuyết.
Robotstxt là kiến thức quan trọng mọi designer/developer WordPress nên nắm. Halo Media với gần 10 năm kinh nghiệm thiết kế Website đã ứng dụng robotstxt cho 500+ dự án — và bài viết này tổng hợp lại những điều quan trọng nhất về robotstxt bạn cần biết.
Bài viết này tổng hợp kinh nghiệm thực chiến của đội ngũ SEO Halo Media — bao gồm cả những điều ít agency Việt Nam chia sẻ public.
Robots.txt là một tệp văn bản được đặt tại thư mục gốc của trang web, cung cấp hướng dẫn cho công cụ tìm kiếm về những trang có thể thu thập và lập chỉ mục.
Khi làm SEO kỹ thuật, một trong những việc quan trọng đầu tiên cần kiểm tra và tối ưu là file robots.txt. Cấu hình không chính xác hoặc lỗi trong file này có thể gây ra các vấn đề nghiêm trọng cho SEO, ảnh hưởng đến thứ hạng và lưu lượng truy cập trang web.
Trong bài viết này, bạn sẽ tìm hiểu về file robots.txt là gì, lý do cần thiết, cách tối ưu SEO cho nó và phương pháp kiểm tra để đảm bảo công cụ tìm kiếm truy cập mà không gặp trở ngại.
Nếu bạn đang sử dụng WordPress, cuối bài viết sẽ có phần hướng dẫn cụ thể về robots.txt mặc định của WordPress. Ngoài ra, chúng tôi sẽ lưu ý về những lỗi thường gặp khi thiết lập website WordPress lần đầu tiên.

Mục lục
Robotstxt – Robots.txt là gì?
Đội ngũ SEO Halo Media đã giúp hàng trăm khách hàng leo top với keyword cạnh tranh — bao gồm cả keyword khó như ‘thiết kế website TPHCM’. Kinh nghiệm của chúng tôi: Robots.txt tối ưu SEO và xác nhận Robots.txt không phải ‘silver bullet’ nhưng là yếu tố nền móng — không có thì các kỹ thuật SEO khác đều khó áp dụng hiệu quả.
Robots.txt là một tệp văn bản đặt trong thư mục gốc của website, hướng dẫn các công cụ tìm kiếm về các trang mà chúng có thể thu thập và lập chỉ mục.
Nếu bạn đã đọc bài viết trước về cách thức hoạt động của các công cụ tìm kiếm, bạn sẽ biết rằng trong quá trình thu thập dữ liệu và lập chỉ mục, các công cụ này sẽ tìm kiếm những trang công khai trên web để đưa vào chỉ mục.
Khi truy cập vào một trang web, công cụ tìm kiếm sẽ kiểm tra file robots.txt đầu tiên. Dựa trên các quy tắc trong file này, chúng sẽ xác định danh sách các URL có thể thu thập thông tin và lập chỉ mục trên trang web đó.
Tệp robots.txt là công khai trên Internet, và bất kỳ ai cũng có thể xem được nội dung của nó. Vì vậy, đây không phải là nơi để thêm thông tin nhạy cảm mà bạn muốn giữ riêng tư.
Nếu không có file robots.txt, các công cụ tìm kiếm sẽ mặc định là có thể truy cập toàn bộ trang web và thu thập dữ liệu từ tất cả các trang công khai để lập chỉ mục.
Trường hợp robots.txt không được định dạng đúng, điều này sẽ phụ thuộc vào lỗi cụ thể. Nếu nội dung của file bị lỗi cấu hình, các công cụ tìm kiếm có thể bỏ qua file và tiếp tục thu thập dữ liệu trên toàn bộ trang web.
Nếu bạn vô tình ngăn các công cụ tìm kiếm truy cập vào trang web, đó sẽ là một vấn đề nghiêm trọng. Trang web của bạn sẽ không được thu thập dữ liệu và lập chỉ mục, và dần dần các trang đã có trong chỉ mục sẽ bị loại bỏ.
Bạn có nên sử dụng tệp robots.txt không?
Có, ngay cả khi bạn không có ý định ngăn chặn bất kỳ trang hay thư mục nào của trang khỏi kết quả tìm kiếm, việc có tệp robots.txt vẫn là điều cần thiết.
Vì sao sử dụng robots.txt?
Dưới đây là những lý do phổ biến nhất khi sử dụng robots.txt:
1 – Ngăn chặn công cụ tìm kiếm truy cập một số trang hoặc thư mục nhất định của trang web.
Ví dụ, trong tệp robots.txt, bạn có thể thấy các dòng “Disallow” được sử dụng để ngăn công cụ tìm kiếm lập chỉ mục những thư mục cụ thể. Bạn có thể dùng ký tự * làm đại diện cho các ký tự khác. Như trong dòng “Disallow: /followerwonk/media*”, tất cả các trang và tệp nằm trong thư mục này đều sẽ bị chặn, chẳng hạn như /followerwonk/halomedia.html hoặc /followerwonk/halomedia
2 – Khi trang web lớn, quy trình thu thập và lập chỉ mục có thể tiêu tốn nhiều tài nguyên.
Trình thu thập dữ liệu từ công cụ tìm kiếm có thể cố gắng thu thập toàn bộ trang, dẫn đến tải nặng cho máy chủ. Lúc này, robots.txt có thể được sử dụng để giới hạn truy cập vào các phần không quan trọng với SEO, giúp tiết kiệm tài nguyên máy chủ và tăng tốc độ lập chỉ mục.
3 – Khi bạn muốn sử dụng URL rút gọn cho các liên kết liên kết của mình.
Không giống việc ẩn URL để đánh lừa người dùng hay công cụ tìm kiếm, việc dùng URL rút gọn chỉ nhằm mục đích quản lý dễ dàng hơn cho các liên kết liên kết.

Hai điều quan trọng về robots.txt
Điều thứ nhất là các quy tắc trong robots.txt chỉ là chỉ thị. Tức là, các công cụ tìm kiếm sẽ cố gắng tuân thủ các quy tắc này. Tuy nhiên, nếu có nội dung không muốn công khai trong chỉ mục, bạn nên bảo vệ thư mục hoặc trang đó bằng mật khẩu.
Điều thứ hai là ngay cả khi bạn chặn trang hoặc thư mục qua robots.txt, chúng vẫn có thể xuất hiện trong kết quả tìm kiếm nếu có liên kết từ các trang được lập chỉ mục trước đó Điều này có nghĩa là việc chặn trang trong robots.txt không đảm bảo nó sẽ biến mất hoàn toàn khỏi web. Đôi khi, bạn sẽ thấy các kết quả tìm kiếm hiển thị thông báo “Không có mô tả do bị chặn.”
Ngoài ra, bạn có thể thêm thẻ meta trong phần <head> của trang để ngăn chặn lập chỉ mục, như ví dụ dưới đây:
<meta name=”robots” content=”noindex”>
Robots.txt hoạt động như thế nào?
Tham khảo: web.dev — Core Web Vitals
Tệp robots.txt có cấu trúc đơn giản, sử dụng các từ khóa và giá trị nhất định để chỉ định cho trình thu thập dữ liệu của công cụ tìm kiếm biết cách xử lý nội dung của trang web.
Các từ khóa phổ biến nhất bao gồm: User-agent, Disallow, Allow, Crawl-delay, và Sitemap.
- User-agent: Dùng để xác định bot nào được áp dụng các quy định trong robots.txt. Bạn có thể dùng ký tự * để áp dụng cho tất cả các bot hoặc chỉ định cụ thể tên bot. Ví dụ:
User-agent: * – gồm tất cả trình thu thập thông tin của bot.
User-agent: Googlebot – chỉ dành cho Google bot.
- Disallow: Chỉ thị này ngăn các bot đã được xác định không được thu thập dữ liệu một URL hoặc thư mục nào đó. Giá trị của nó có thể là một file, một URL hoặc một thư mục cụ thể. Ví dụ từ Google về cách dùng Disallow:

- Allow: Dùng để cho phép bot truy cập vào một thư mục hoặc trang con cụ thể, ngay cả khi thư mục gốc của nó bị chặn. Chỉ thị này chủ yếu được áp dụng cho Googlebot. Ví dụ:
User-agent: *
Disallow: /photos
Allow: /photos/halomedia/
- Crawl-delay: Dùng để yêu cầu bot chờ một khoảng thời gian nhất định (tính bằng giây) trước khi thu thập thông tin trang tiếp theo. Lưu ý là Googlebot không hỗ trợ chỉ thị này; bạn có thể điều chỉnh tốc độ thu thập của Google thông qua Google Search Console.
- Sitemap: Đây là chỉ thị chỉ ra vị trí của sơ đồ trang XML và được các công cụ tìm kiếm lớn hỗ trợ, giúp họ dễ dàng tìm thấy các trang trên website của bạn.
Lưu ý quan trọng là robots.txt phân biệt chữ hoa và chữ thường. Chẳng hạn, nếu bạn viết Disallow: /File.html, thì chỉ đường dẫn sẽ không chặn được file.html (viết thường)
Tạo tệp robots.txt rất đơn giản. Bạn chỉ cần một trình chỉnh sửa văn bản (như Notepad) và quyền truy cập vào các tệp trang web của mình (thông qua FTP hoặc bảng điều khiển quản lý hosting).
Trước khi bắt đầu tạo tệp robots.txt, bạn nên kiểm tra xem tệp này đã có sẵn chưa.
Để làm điều này, bạn có thể mở trình duyệt và nhập vào thanh địa chỉ: https://www.tênmiền.com/robots.txt
Nếu thấy nội dung tương tự như dưới đây, thì tệp robots.txt đã tồn tại và bạn có thể chỉnh sửa nó thay vì tạo một tệp mới.
User-agent: * Allow: /
Cách chỉnh sửa tệp robots.txt
- Sử dụng phần mềm FTP để kết nối với thư mục gốc của trang web.
- Tệp robots.txt thường nằm trong thư mục gốc (có thể là
wwwhoặcpublic_html, tùy thuộc vào máy chủ). - Tải tệp robots.txt về máy tính và mở bằng trình chỉnh sửa văn bản.
- Thực hiện các thay đổi cần thiết và tải tệp đã chỉnh sửa lên máy chủ.
Ví dụ về tệp robots.txt
User-agent: * Allow: / Sitemap: https://example.com/sitemap.xml
Tệp này cho phép tất cả các trình thu thập dữ liệu truy cập trang web mà không giới hạn thư mục hay URL nào. Nó cũng cung cấp vị trí của sơ đồ trang XML để công cụ tìm kiếm dễ dàng tìm thấy.
Cách kiểm tra và cấu hình cho robots.txt?
Nếu bạn đang triển khai dự án website mới, tham khảo Dịch vụ thiết kế Website chuẩn SEO của Halo Media — chúng tôi đã ứng dụng các best practices trong bài này cho 500+ khách hàng.
Mặc dù bạn có thể truy cập tệp robots.txt bằng cách mở URL trực tiếp, nhưng cách tốt nhất để kiểm tra và xác nhận nó là sử dụng công cụ kiểm tra robots.txt trong Google Search Console.
- Truy cập Google Search Console: Đăng nhập vào tài khoản của bạn tại Google Search Console.
- Chọn trang web của bạn: Trong bảng điều khiển, chọn trang web bạn muốn kiểm tra.
- Chọn vào phần cài đặt ở Console: Ở phần cài đặt sẽ có báo cáo về file Robots ở đó bấm vào nút mở báo cáo là có thể xem được thông tin
- Xem lại các chặn robots.txt nếu cần: Nếu một URL quan trọng bị chặn, bạn có thể cập nhật tệp robots.txt bằng cách chỉnh sửa các quy tắc để đảm bảo các trang quan trọng được cho phép lập chỉ mục.
- Tải lại tệp robots.txt lên máy chủ: Sau khi chỉnh sửa, tải tệp mới lên thư mục gốc của trang web (thường là thư mục
public_html). - Thông báo cho Google về tệp robots.txt mới: Sau khi cập nhật, bạn có thể yêu cầu Google thu thập dữ liệu lại trang web bằng cách chọn Yêu cầu lập chỉ mục trong Kiểm tra URL.


Lưu ý:
- Để đảm bảo Google phát hiện nhanh các thay đổi, hãy sử dụng nút Yêu cầu lập chỉ mục cho những trang bị chặn trước đó.
- Các thay đổi trong tệp robots.txt có thể mất một chút thời gian để Google cập nhật trong chỉ mục của mình.
Bằng cách sử dụng Google Search Console, bạn có thể dễ dàng kiểm tra và đảm bảo rằng các quy tắc trong tệp robots.txt phù hợp với mục tiêu SEO của trang web.
Robots.txt với WordPress?
Robots.txt là một công cụ quan trọng cho mọi trang web, bao gồm cả các trang WordPress. Đặc điểm cần chú ý về tệp robots.txt trong WordPress như sau:
Mặc định, WordPress tạo ra một tệp robots.txt ảo, nghĩa là bạn không thể tìm thấy nó trong thư mục gốc của website hoặc chỉnh sửa trực tiếp. Để kiểm tra nội dung tệp này, bạn chỉ cần truy cập vào đường dẫn https://www.tênmiền.com/robots.txt trong trình duyệt.
Cấu hình mặc định của tệp robots.txt trong WordPress thường là:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php
Nếu bạn sử dụng plugin Yoast SEO, việc chỉnh sửa tệp robots.txt sẽ trở nên đơn giản hơn. Bạn chỉ cần vào mục SEO -> Tools -> File editor trong Yoast SEO để thay đổi nội dung tệp và lưu lại.
Một lưu ý khác khi thiết lập WordPress là trong giai đoạn phát triển, bạn có thể chọn chặn các công cụ tìm kiếm để chúng không lập chỉ mục cho trang web. Sau khi hoàn thiện trang web, bạn có thể bật lại để công cụ tìm kiếm truy cập và lập chỉ mục bình thường.

Ngoài ra, trong phần cài đặt “Đọc” (Reading) của WordPress, nếu bạn tích chọn ô chặn công cụ tìm kiếm, các công cụ tìm kiếm sẽ không thể truy cập và lập chỉ mục trang web của bạn.
Robots.txt tốt giúp hỗ trợ SEO như thế nào?
Một tệp robots.txt tối ưu cho SEO nên được cấu hình sao cho các công cụ tìm kiếm có thể truy cập đầy đủ các phần cần thiết của trang web.
Đảm bảo rằng bạn không chặn bất kỳ phần nào mà bạn muốn các công cụ tìm kiếm lập chỉ mục. Đặc biệt, tránh chặn thư mục CSS và JS, vì Google có thể xem trang web như một người dùng thực. Nếu các trang của bạn cần tệp JS và CSS để hiển thị đúng, hãy đảm bảo chúng không bị chặn trong robots.txt.
Đối với các trang WordPress, thông thường không cần chặn các thư mục như wp-admin hay wp-include. WordPress đã tích hợp sẵn thẻ meta robots để kiểm soát việc lập chỉ mục các khu vực nhạy cảm, nhưng nếu chặn các thư mục này, cũng không ảnh hưởng gì.
Cuối cùng, tránh thiết lập các quy tắc riêng cho từng công cụ tìm kiếm. Điều này có thể gây phức tạp và khó duy trì. Tốt nhất, sử dụng cú pháp User-agent: * và đưa ra một bộ quy tắc chung áp dụng cho tất cả các bot tìm kiếm.
KẾT LUẬN
Tóm lại, bạn không cần đầu tư quá nhiều thời gian vào việc cấu hình robots.txt. Điều cần thiết là đảm bảo có tệp này và sử dụng Công cụ Quản trị Trang web của Google để xác minh rằng bạn không chặn nhầm trình thu thập thông tin của các công cụ tìm kiếm.
Đây là một bước nên thực hiện ngay khi bạn khởi tạo trang web hoặc là một phần trong kiểm tra kỹ thuật SEO ban đầu của trang.
Chúc các bạn có 1 trải nghiệm tốt và mong muốn khi đọc bài viết này và khắc phục các vấn đề gặp phải!!
Bài viết cùng chủ đề
- Breadcrumb là gì? Cách sử dụng Breadcrumbs hiệu quả
- Sitemap là gì ? Lợi ích , Cách tạo & tối ưu đơn giản cho website?
- PageSpeed Insights? Cách tối ưu hiệu suất website từ A-Z
Halo Media checklist robots.txt cho website production
Trong dịch vụ thiết kế Website chuẩn SEO, Halo Media cấu hình robots.txt theo checklist 8 mục dưới đây cho mọi khách hàng:
- Allow root / — cho phép crawl toàn bộ website mặc định
- Disallow /wp-admin/ — chặn crawl admin (riêng /wp-admin/admin-ajax.php phải allow vì plugin dùng)
- Disallow /wp-includes/ — file system core, không cần crawl
- Disallow /?s=* — chặn search results pages (duplicate content)
- Disallow /trackback/ — outdated WordPress feature, không cần index
- Disallow /*?replytocom* — comment reply parameter, gây thin content
- Allow /wp-content/uploads/ — quan trọng cho image SEO
- Sitemap declaration — link đến XML sitemap chính (Rank Math hoặc Yoast)
Lỗi robots.txt thường gặp Halo Media đã sửa cho khách hàng
Top 5 lỗi robots.txt phổ biến nhất chúng tôi phát hiện khi audit website khách hàng:
- Disallow / accidentally — block toàn site khỏi Google. Thường do dev quên sửa lại sau khi develop trên staging.
- Block CSS/JS files — Google cần CSS/JS để render mobile-friendly check. Block sẽ fail mobile test.
- Sai cú pháp wildcard — robots.txt chỉ support * và $, không phải full regex.
- Conflict với meta robots noindex — robots.txt block crawl, nhưng noindex meta vẫn được respect nếu URL có backlink → URL vẫn appear trong SERP nhưng không có content.
- Forget to update sitemap URL — khi đổi domain hoặc cấu trúc URL, robots.txt vẫn point đến sitemap cũ.
Câu hỏi thường gặp
Tham khảo: Google Search Central

Bài viết liên quan
Sitemap là gì ? Lợi ích , Cách tạo & tối ưu đơn giản cho website?
Google thay đổi thuật toán liên tục, nhưng Sitemap Lợi ích , tạo & tối
Th5
Tổng hợp tất tần tật các thuật toán Google mà SEO Web cần phải biết
Trong SEO, có những concept nghe phức tạp nhưng nắm vững là tăng top hàng
Th5
Breadcrumb là gì? Cách sử dụng Breadcrumbs hiệu quả
Trong SEO, có những concept nghe phức tạp nhưng nắm vững là tăng top hàng
Th5
llms.txt là gì? Cách tạo llms.txt trong Web WordPress
Khi AI bùng nổ, cách dữ liệu trên website được thu thập và sử dụng
Th5
E-E-A-T Là Gì? Cách Áp Dụng EEAT Tăng Thứ Hạng SEO
Trong lĩnh vực SEO, E-E-A-T là một khái niệm quan trọng và đang ngày càng
Th5
30 Cách Viết Tiêu Đề Hấp Dẫn Thu Hút Traffic
Viết tiêu đề hấp dẫn là yếu tố quan trọng đầu tiên khi thu hút
Th5