Robots.txt là tập tin văn bản nằm trong thư mục gốc của website, cung cấp chỉ dẫn cho các công cụ tìm kiếm thu thập dữ liệu về các site mà họ có thể thu thập thông tin để lập chỉ mục.
Robot.txt là một trong những điều đầu tiên bạn cần phải kiểm tra và tối ưu hóa khi tối ưu kỹ thuật SEO. Bất kì Sự cố hoặc cấu hình sai trong File robots.txt của bạn có thể gây ra các vấn đề SEO quan trọng có thể tác động tiêu cực đến thứ hạng và lượng truy cập của bạn.
Trong bài này, dịch vụ SEO HapoDigital sẽ giúp bạn hiểu file robots.txt là gì, tại sao cần nó, làm thế nào để SEO tối ưu hóa nó và làm thế nào để kiểm tra rằng các công cụ tìm kiếm.
File robot.txt là gì
File robots.txt là một tập tin văn bản đơn giản được sử dụng trong quản trị website. Tệp này là một phần của Robots Exclusion Protocol (REP) chứa một nhóm các tiêu chuẩn về web theo quy định. Trên thực tế, công dụng robots.txt giúp các nhà quản trị web link hoạt và chủ động hơn trong việc kiểm soát bọ của Google.
Nó được dùng để cấp quyền lập chỉ mục cho con bọ của công cụ tìm kiếm. Bất kể một trang web nào thì cũng nên sử dụng file robot.txt đặc biệt là trang web lớn hoặc đang xây dựng.
6 công dụng robots.txt đối với website
1. Chặn Google trong quá trình xây dựng web
Trong quá trình thiết kế cấu trúc website thì mọi thứ còn chưa được đẹp và như ý muốn. Chính vì thế mà cần chặn bọ của Google. Để nó không index những nội dung chưa được hoàn thiện mà bạn không mong muốn.
Bạn chỉ sử dụng công dụng robots.txt trong quá trình thiết lập hệ thống. Nếu như trang web đang hoạt động ổn định, thì đừng chèn mã trên vào file robots.txt. Bởi khi đó, bài viết của bạn sẽ không thể nào xuất hiện trên trang kết quả tìm kiếm.
2. Chèn Sitemap
Sitemap giống như là một tấm bản đồ để cho Google khám phá về trang web của bạn. Nếu như số lượng bài viết được index của trang web quá lớn mà trang web không có sitemap thì Google có thể sẽ không đủ tài nguyên để index hết toàn bộ. Từ đó, một số nội dung quan trọng bạn muốn được hiển thị sẽ không xuất hiện.
3. Chặn bọ quét backlink
Hiện tại thì có ba công cụ quét backlink phổ biến nhất. Đó chính là Ahrefs, Majestic và Moz. Mỗi phần mềm này lại được trang bị chức năng để quét backlink của bất cứ một website nào. Lúc này công dụng robots.txt sẽ ngăn chặn điều này. Để không cho đối thủ phân tích backlink của bạn.
4. Chặn mã độc hại, nguy hiểm
Ngoài những phần mềm có thể kiểm tra backlink đối thủ còn một số loại phần mềm độc hại khác. Có những con bọ được thiết kế riêng để đi sao chép nội dung người khác. Hoặc những con bọ gửi quá nhiều, quá nhanh request tới máy chủ của bạn. Từ đó làm cho hao phí băng thông và tài nguyên trên hệ thống của bạn.
5. Chặn thư mục cần bảo mật
Những mã nguồn mở của trang web thường sẽ có thư mục cần được bảo mật. Chẳng hạn như wp-admin, wp-includes, phpinfo.php, cgi-bin, memcache….
Chắc chắn rằng những trang web này không được phép index. Bởi khi nội dung bị công khai trên internet, các hacker có thể lấy cắp thông tin hoặc tấn công vào hệ thống của bạn. Do đó công dụng robots.txt sẽ ngăn chặn việc Google index nội dung này.
6. Chặn bọ đối với trang thương mại điện tử
Những trang web thương mại điện tử thường sẽ có một số tính năng đặc thù riêng cho người dùng. Chẳng hạn như đăng ký, đăng nhập, giỏ hàng, đánh giá sản phẩm,… Những chức năng chắc chắn không thể thiếu với người dùng. Họ sẽ thường tạo ra những nội dung bị trùng lặp trong SEO. Những nội dung này cũng không có liên quan gì để hỗ trợ cho việc SEO từ khóa. Do đó, bạn có thể chặn index các đường dẫn này bằng công dụng robots.txt.
Việc thiết lập file robots.txt đóng một vai trò quan trọng trong bảo vệ trang web. Hãy liên hệ với những người thiết kế web để tìm đúng cú pháp sử dụng file robots.txt.
XEM THÊM:
Hướng dẫn cách tạo Robots.txt cho website
Bot là một chương trình thu thập dữ liệu của các công cụ tìm kiếm, như googlebot, cococbot, bingbot,… Googlebot sử dụng các thuật toán và quét mọi website tiếp nhận dữ liệu vào cơ sở dữ liệu. Nhờ vậy mà người dùng có thể tìm kiếm những thông tin đó thông qua công cụ tìm kiếm. Tuy nhiên, nếu bạn muốn ngăn chặn điều này thì cần biết cách tạo robots.txt.
Để tạo được file robots.txt thì bạn chỉ cần sử dụng một công cụ soạn thảo văn bản đơn giản như Notepad trong Windows. Tạo một tệp mới, sau đó đặt tên là “robot.txt” rồi lưu lại là đã xong phần khởi tạo.
Trong file này bạn sẽ viết những cú pháp nhất định để thể hiện mục đích của bạn. Một số cú pháp phổ biến được sử dụng bao gồm:
- User-agent: tên loại bot muốn áp dụng
- Disallow: không cho phép loại bot có tên trong mục User-Agent truy cập vào website
- Allow: cho phép bot được truy cập và thu thập dữ liệu
- Dấu *: áp dụng cho tất cả mọi trường hợp
Ví dụ như:
User-agent: * (Áp dụng với tất các các loại bot)
Disallow: / (Chặn không cho bot được phép truy cập vào toàn bộ website)
Ghi chú: Nếu bạn muốn áp dụng với tất cả thì sử dụng dấu *. Đối với mỗi một loại công cụ thu thập dữ liệu sẽ đều có một cái tên cụ thể. Chẳng hạn như googlebot, bingbot, coccocbot… Nếu muốn chặn bất kỳ một loại bot cụ thể nào thì chúng ta sẽ khai báo tên của loại bot đó.
Một số lưu ý khi sử dụng Robot.txt
Cách tạo robots.txt thì cú pháp phải được viết một cách chính xác. Không được thừa hay thiếu một ký tự hay khoảng trắng nào cả. Ngoài ra thì còn phân biệt cả chữ hoa và chữ thường.
File robots.txt phải được lưu bằng bảng mã utf-8, không được sử dụng mã Unicode. Bởi như vậy sẽ hiển thị ra những ký tự không đúng như đã viết ban đầu và làm sai mã chỉ dẫn.
Việc chặn các loại bot bằng file này chỉ mang tính tương đối. Nếu như bạn đặt đường link từ trang không bị chặn đến trang bị chặn thì trang đã chặn vẫn rất có thể xuất hiện trên trang kết quả tìm kiếm. Vì vậy khi muốn bảo vệ nội dung tốt nhất thì ngoài cách tạo robots.txt thì bạn nên đặt mật khẩu để bảo vệ cho những thư mục quan trọng.
Khi nào cần sử dụng file robots.txt?
Nếu website không có file này thì các công cụ tìm kiếm sẽ đi thu thập tất cả nội dung bên trong trang web. Tùy vào từng trường hợp mà bạn nên biết cách sử dụng robots.txt để đạt mục đích quản trị cũng như tối ưu hóa với các công cụ tìm kiếm.
1. Chặn công cụ tìm kiếm khi website đang xây dựng
Quá trình xây dựng và hoàn thiện một website có thể phải mất nhiều ngày. Thậm chí với những website phức tạp thì cần nhiều thời gian hơn nữa. Trong quá trình xây dựng này, khi bạn đưa nội dung lên để chạy thử và chỉnh sửa thì chắc chắn không muốn được công cụ tìm kiếm index. Bởi những trang đang dở dang không có lợi về mặt SEO.
Khi đó, bạn nên chặn tất cả các bot của công cụ tìm kiếm để không cho vào tất cả các nội dung của trang web. Sau đó, trang web đã hoàn thiện thì bạn sẽ sửa lại cách sử dụng robot.txt để cho phép SE vào từng phần hoặc tất cả nội dung theo ý muốn.
2. Tránh bị đối thủ chơi xấu
Khi sử dụng công cụ Search nhúng trong web của bạn thì trang kết quả sẽ có một URL riêng. Tất nhiên Google cũng có thể sẽ index những trang đó. Điều nguy hiểm nhất đó chính là đối thủ có thể lợi dụng tính năng này để cố tình search những từ khóa có nội dung xấu. Nhằm gây hại cho danh tiếng của website. Vì vậy nên chặn toàn bộ trang kết quả, không cho các SE index và đánh giá nội dung.
3. Chặn các công cụ thu thập liên kết
Những công cụ như Ahref đều có một con bọ riêng để thu thập thông tin về website. Những thông tin đó bao gồm: Backlink, Referring domains, Organic keywords, Top pages… Đối thủ sử dụng công cụ này để phân tích website của bạn. Để ngăn chặn điều này thì bạn cần biết cách sử dụng robots.txt để chặn những con bot này bằng cách đặt đoạn mã trong file robot.txt.