Hướng dẫn tạo file robots.txt WordPress chuẩn cho Website

|

Để Webiste của bạn hiện lên trang kết quả tìm kiếm của Google thì cũng cần có con bot tìm kiếm đi vào bên trong và thu thập dữ liệu. File robots.txt được viết tốt có thể quản lý truy cập của những con bots này tới trang mà bạn muốn. Bài viết dưới đây ThemeNest giới thiệu robots.txt WordPress là gì, tạo file robots.txt chuẩn. Cùng tham khảo nhé!

Hướng dẫn tạo file robots.txt WordPress chuẩn cho Website
Hướng dẫn tạo file robots.txt WordPress chuẩn cho Website

File file robots.txt là gì?

File Robots.txt Là Gì
File Robots.txt Là Gì?

File robots.txt là tập tin văn bản đơn giản có dạng .txt. Tệp này là một phần của Robots Exclusion Protocol (REP) chứa một nhóm tiêu chuẩn Website quy định cách Robot Web (hay Robot của những công cụ tìm kiếm) thu thập dữ liệu Website truy cập, Index nội dung và cung cấp nội dung đó cho người dùng.

Tạo file robots.txt chuẩn giúp cho những nhà quản trị Website linh hoạt và chủ động hơn trong việc cho phép hay không những con bot của công cụ Google Index một phần nào đó trong trang của mình.

Cú pháp của file robots.txt

Cú Pháp Của File Robots.txt chuẩn
Cú Pháp Của File Robots.txt chuẩn

Các cú pháp được xem là ngôn ngữ riêng của những flie robots.txt. Có 5 thuật ngữ phổ biến mà bạn sẽ bắt gặp ở trong file robots.txt chuẩn. Bao gồm:

  • User-agent: Phần này là tên của các trình thu thập, truy cập dữ liệu web. (ví dụ: Googlebot, Bingbot,…).
  • Disallow: Dùng để thông báo cho những user – agent không thu thập bất kỳ dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng 1 dòng Disallow.
  • Allow (Chỉ áp dụng cho bọ tìm kiếm Googlebot): Lệnh thực hiện thông báo cho rằng Google rằng nó sẽ truy cập một trang hay thư mục con. Dù những trang hay thư mục con có thể không cho phép.
  • Crawl-delay: Thông báo cho những Web Crawler biết nên đợi bao nhiêu giây trước khi tải và thu thâp nội dung của trang. Nhưng, nếu như tìm kiếm googlebot mà không thừa nhận lệnh này. Bạn tiến hành cài tốc độ thu thập dữ liệu trong Google Search Console.
  • Sitemap: Cung cấp vị trí của bất cứ Sitemap XML nào mà có liên kết với URL. Lưu ý lệnh này chỉ được hỗ trợ bởi những công cụ Google, Bing, Ask và Yahoo.

Tại sao bạn cần tạo file robots.txt chuẩn?

Tại Sao Bạn Cần Tạo File Robots.txt Chuẩn
Tại Sao Bạn Cần Tạo File Robots.txt Chuẩn

Như giới thiệu ở phần định nghĩa, tạo lập file robots.txt chuẩn sẽ giúp cho kiểm soát truy cập của những con bot đến những khu vực nhất định trên Website. Nếu như bạn thực hiện sai vài thao tác thì rất nguy hiểm vì google bot không thể index website.

Tạo file robots.txt chuẩn rất hữu ích bởi:

  • Ngăn chặn sự trùng lặp nội dung trong Website.
  • Giữ được một số phần trang ở chế độ riêng tư.
  • Giữ một số trang nội dung không hiển thị trên SERP.
  • Chỉ định được vị trí Sitemap.
  • Ngăn chặn công cụ của google index một số tệp nhất định
  • Dùng lệnh Crawl-delay để cài đặt thời gian. Điều này sẽ ngăn chặn máy chủ của bạn quá tải khi những trình thu thập dữ liệu tải nhiều nội dung cùng 1 lúc.

File robots.txt hoạt động như thế nào?

File Robots.txt Hoạt động Như Thế Nào
File Robots.txt Hoạt động Như Thế Nào

Công cụ tìm kiếm có 2 nhiệm vụ chính:

  • Crawl (cào/phân tích) dữ liệu trên Webiste để khám phá nội dung.
  • Index nội dung đó để đáp ứng cho những tìm kiếm của người dùng.

Để crawl dữ liệu trên Website thì công cụ sẽ đi theo những liên kết từ trang này đến trang khác. Cuối cùng, thu thâp được dữ liệu thông qua nhiều website khác nhau. Quá trình Crawl dữ liệu còn được biết đến theo một tên gọi khác là “Spidering“.

Sau khi mà đến Website, trước khi Spidering thì những con bot của công cụ Google sẽ tìm những File robots.txt WordPress. Nếu như tìm thấy tệp robots.txt thì sẽ đọc tệp đó đầu tiên trước khi tiến hành những bước tiếp theo.

File robots.txt chuẩn sẽ chứa những thông tin về cách những công cụ của Google nên thu thập dữ liệu của Website. Tại đây thì những con bot sẽ được hướng dẫn thêm nhiều thông tin cụ thể cho quá trình này.

Nếu như File robots.txt không chưa bất kỳ một chỉ thị nào cho User-agent hoặc nếu bạn không tạo File robots.txt cho website thì những con bot sẽ tiến hành thu thập những thông tin khác trên website.

File robots.txt WordPress nằm ở đâu trên website?

File Robots.txt WordPress Nằm ở đâu Trên Website
File Robots.txt WordPress Nằm ở đâu Trên Website

Khi bạn tạo Website WordPress thì sẽ tự động tạo ra một File robots.txt ở ngay bên dưới thư mục gốc của Server. Ví dụ như nếu site của bạn đặt trong thư mục gốc của địa chỉ yourwebsite.com thì bạn có thể truy cập file robots.txt ở đường dẫn như sau: yourwebsite.com/robots.txt, kết quả ban đầu sẽ tương tự như sau

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Đây là ví dụ của File Robots.txt cơ bản, phần sau User-agent: Dấu * tức là quy tắc này được áp dụng cho mọi bot trên khắp Website. Trong trường hợp này thì File này sẽ nói cho bot biết là chúng không được phép vào trong File thư mục wp-admin và wp-includes. Bởi vì 2 File này chứa thông tin bảo mật.

Hãy lưu ý, đây là một File ảo, do WordPress tự thiết lập mặc định khi cài đặt và không chỉnh sửa được. Thường thì vị trí của file robots.txt chuẩn được đặt trong thư mục gốc, thường được gọi là public_html và www (tên website). Để tạo một File robots.txt riêng thì bạn cũng cần tạo một File mới để thay thế File cũ đặt trong mục thư gốc đó.

Làm thế nào kiểm tra Website có File Robots.txt không?

Làm Thế Nào Kiểm Tra Website Có File Robots.txt Không
Làm Thế Nào Kiểm Tra Website Có File Robots.txt Không

Nếu như thắc mắc không biết Website của mình có chứa File Robots.txt không thì hãy nhập Root Domain sau đó theme /robots.txt vào cuối URL. Nếu như không có trang .txt xuất hiện thì chắc chắn Website của bạn hiện không tạo Robots.txt cho WordPress.

Bạn có thể kiểm tra Website của Themenest.vn có tạo được File robots.txt hay không bằng cách trên.

  1. Nhập Root Domain (themenest.vn)
  2. Chèn /robots.txt vào cuối URL (themenest.vn/robots.txt).
  3. Nhấn Enter.

Dưới đây là kết quả tra cứu của Website ThemeNest:

Kiểm Tra Website Themenets Có File robots.txt
Kiểm Tra Website Themenets Có File robots.txt

Quy tắc nào cần bổ sung vào trong File robots.txt WordPress?

Quy Tắc Nào Cần Bổ Sung Vào Trong File Robots.txt WordPress
Quy Tắc Nào Cần Bổ Sung Vào Trong File Robots.txt WordPress

Cho đến thời điểm hiện tại thì tất cả đều xử lý một quy tắc một thời điểm. Nhưng nếu như bạn muốn áp dụng những quy tắc khác nhau cho những con bot khác nhau thì như thế nào?

Bạn chỉ cần thêm từng bộ quy tắc trong phần khai báo cho mỗi bot.

Giải sử như: Bạn muốn tạo một quy tắc áp dụng cho tất cả những bot và một quy tắc chỉ áp dụng cho bigbot thì bạn có thể thực hiện như sau:

User-agent: *
Disallow: /wp-admin/
User-agent: Bingbot
Disallow: /

Tại đây, tất cả những bot sẽ chặn truy cập /wp-admin/ nhưng bingbot sẽ chặn truy cập toàn bộ Website của bạn.

Cách tạo File robots txt cho Website WordPress

Cách Tạo File Robots.txt Cho Website WordPress
Cách Tạo File Robots.txt Cho Website WordPress

Nếu như bạn kiểm tra Website của mình không chứa file robots.txt hay bạn muốn thay đổi file robots.txt của Website. Hãy tham khảo 3 cách tạo robots.txt cho WordPress sau đây:

Sử dụng Yoast SEO

Để có thể thực hiện theo cách này thì bạn phải cài đặt và kích hoạt Plugin Yoast SEO. Sau đó bạn có thể chỉnh sửa hay tạo file robots.txt chuẩn cho WordPress trên chính trang quản trị WordPress chỉ vài bước đơn giản.

  1. Đăng nhập vào trang quản trị WordPress, nhìn bên trái của màn hình, click vào SEOTools.
Nhấn Chọn Tools Trên Plugin Yoast Seo
Nhấn Chọn Tools Trên Plugin Yoast Seo
  1. Chọn File editor.
Bấm Vào File Editor để Bắt đầu Tạo Lập File Robots.txt Chuẩn
Bấm Vào File Editor để Bắt đầu Tạo Lập File Robots.txt Chuẩn

Tính năng File Editor sẽ không xuất hiện nếu như WordPress của bạn chưa được kích hoạt trình quản lý chỉnh sửa File. Vì thế bạn hãy kích hoạt chúng thông qua FTP (File Transfer Protocol – Giao thức truyền tập tin).

Khi đó bạn sẽ thấy được mục robots.txt.htaccess File – nơi để bạn tạo file robots.txt.

Điều Chỉnh Và Tạo File robots.txt chuẩn Trực Tiếp Trên Yoast Seo
Điều chỉnh và tạo file robots.txt chuẩn trực tiếp trên Yoast SEO

Như thế là xong, bạn đã tạo File Robots.txt chuẩn cho WordPress.

Qua bộ plugin All in One SEO Pack

All in One SEO Pack là một trong những Plugin rất nổi tiếng trong giới WordPress SEO. Bao gồm tất cả những tính năng của Yoast SEO nhưng cũng được nhiều người yêu thích bởi vì nhẹ hơn. Vì thế mà tạo File robots.txt cho WordPress thông qua Plugin này cũng dễ dàng hơn.

Để có thể thực hiện theo cách này thì bạn phải cài đặt và kích hoạt Plugin All in One SEO Pack.

  1. Truy cập vào trang quản trị WordPress, chuyển tới mục All in One SEO PackFeature Manager.

Sau đó tìm tùy chọn có tên “Robots.txt” nhấn vào “Activate” ngay bên dưới:

Chọn Features Manager Trên All In One Seo
Chọn Features Manager Trên All In One Seo
  1. Điều chỉnh file robots.txt WordPress

Khi đó, mục chứa file robots.txt sẽ xuất hiện như một Tab mới trong thư mục lớn của All In One SE). Bạn cũng có thể điều chỉnh File robots.txt WordPress tại đây.

Điều Chỉnh File Robots.txt WordPress Với Plugin All In One Seo
Điều Chỉnh File Robots.txt WordPress Với Plugin All In One Seo

Tạo File Robots.Txt chuẩn với Plugin All In One Seo có khác với Yoast SEO ở trên đó là: All in One SEO làm mờ thông tin của File Robots.txt thay vì bạn được chỉnh sửa File như công cụ Yoast SEO. Điều này làm cho bạn hơi bị động một chút khi chỉnh sửa File robots.txt WordPress.

Tạo rồi upload file robots.txt qua FTP

Nếu như bạn không muốn sử dụng Plugin để tạo File robots.txt chuẩn thì ThemeNest sẽ hướng dẫn cho bạn một cách tự tạo file robots.txt bằng cách thủ công cho wordpress của mình.

Sử dụng Notepad hoặc Textedit để tạo mẫu file robots.txt WordPress mà ThemeNest đã dưới thiệu ở đầu bài viết:

User-agent: * 
Disallow: /wp-admin/
Disallow: /wp-includes/

Sau đó bạn kết nối website qua FTP, chuyển vào thư mục public_html. Tại đây bạn chỉ cần Upload (kéo thả) File robots.txt từ máy tính sang tới server là được. Bạn cũng có thể làm vậy bằng cách click chuột phải vào File và chọn “Upload” (Tải lên):

Upload File Robots.txt Qua Ftp
Upload File Robots.txt Qua Ftp

Một số quy tắc khi tạo File robots.txt

Một Số Quy Tắc Khi Tạo File Robots.txt chuẩn
Một Số Quy Tắc Khi Tạo File Robots.txt chuẩn

Dưới đây là một số quy tắc mà bạn cần nắm khi muốn lập File robots.txt chuẩn:

  • Để những con bot tìm thấy nhưng file Robots.txt WordPress phải được đặt trong những thư mục cao cấp nhất trong Website.
  • Txt phân biệt chữ viết hoa và chữ thường. Vì thế mà tệp cũng phải được đặt tên là robots.txt (không phải Robots.txt hay robots.TXT …)
  • Không nên đặt /wp-content/themes/ hay /wp-content/plugins/ vào mục Disallow. Điều này cũng làm cản trở những công cụ nhìn nhận chính xác về giao diện Blog hay Website của bạn.
  • Một số User-agent chọn cách bỏ qua những File Robots.txt chuẩn của bạn. Điều này cũng rất phổ biến với những User-agent bất chính như:
    • Malware robots (bot của những đoạn mã độc hại).
    • Những trình Scraping (quá trình tự thu thập thông tin) địa chỉ Email.
  • Những file robots.txt có sẵn và công khai trên Website. Bạn chỉ cần thêm /robots.txt vào cuối bất kỳ Root Domain để xem những File robots.txt của Website đó. Điều này cũng có nghĩa là bất cứ ai cũng thấy những trang mà bạn muốn hay không muốn crawl. Vì thế, không nên dùng những tệp này để ẩn thông tin cá nhân người dùng.
  • Mỗi Subdomain trên một Root Domain sẽ sử dụng những File Robots.txt riêng biệt. Điều này cũng có nghĩa là cả blog.example.com và example.com nên có những file robots.txt riêng. Đây cũng là cách tốt nhất để chỉ ra vị trí của bất kỳ Sitemap nào có liên kết với Domain ở cuối file robots.txt.

Một số lưu ý khi sử dụng File robots.txt

Một Số Lưu ý Khi Sử Dụng File Robots.txt
Một Số Lưu ý Khi Sử Dụng File Robots.txt

Những liên kết trang mà bị chặn bởi việc file robots.txt sẽ không được những bot theo dõi. Trừ khi những link này có liên kết với những trang khác (những trang không bị chặn bởi robots.txt, Meta Robots…). Nếu không, những tài nguyên được liên kết có thể sẽ không được thu thập và lập chỉ mục.

Link juice sẽ không được truyền từ những trang chặn đến những trang đích. Vì thế nếu muốn dòng sức mạnh Link juice truyền đến những trang này thì bạn hãy sử dụng phương pháp khác thay vì tạo robots.txt WordPress.

Không nên sử dụng File Robots.txt để ngăn dữ liệu nhạy cảm (như thông tin cá nhân) xuất hiện trong kết quả SERP. Bởi những trang Website chứa những thông tin cá nhận có thể liên kết nhiều trang Website khác. Vì thế, bot sẽ bỏ qua những chỉ thị của file robots.txt trên Root Domain hay trang chủ của bạn, nên trang website này vẫn có thể lập chỉ mục.

Nếu như muốn chặn Website này khỏi liên kết tìm kiếm thì hãy sử dụng phương pháp này thay vì tạo File Robots.txt chuẩn cho WordPress như dùng mật khẩu bảo vệ hay Noindex Meta Directive.

Đa số User-agent từ cùng một công cụ đều tuân theo một quy tắc. Vì thế bạn không cần chỉ định cho những lệnh cho từng User-agent. Tuy nhiên việc làm này cũng giúp cho bạn điều chỉnh được cách Index nội dung trang Website.

Những công cụ tìm kiếm sẽ lưu trữ nội dung File robots.txt WordPress. Nhưng vẫn cập nhật nội dung trong bộ nhớ Cache ít nhất 1 lần/ngày.

Những câu hỏi thường gặp về tạo File robots.txt WordPress

Những Câu Hỏi Thường Gặp Về Tạo File Robots.txt WordPress
Những Câu Hỏi Thường Gặp Về Tạo File Robots.txt WordPress

Dưới đây là một số thắc mắc của người dùng về file robots.txt chuẩn như sau:

Kích thước tối đa của File robots.txt là bao nhiêu?

Kích thước tối đa của File robots.txt chuẩn là 500 kilobyte (khoảng).

File robots.txt Wordprss nằm ở đâu trên Website?

Bạn thêm sau domain của mình /robots.txt, ví dụ như: themenest.vn/robots.txt

Làm sao để chỉnh sửa robots.txt WordPress?

Bạn có thể thực hiện theo cách thủ công hoặc sử dụng Plugin Yoast SEO cho phép bạn chỉnh sửa file robots.txt từ WordPress.

Điều gì xảy ra nếu như Disallow vào nội dung Noindex trong robots.xtx?

Nếu như Disallow vào nội dung Noindex trong robots.xtx thì google sẽ không bao giờ thấy lệnh Noindex vì không thể Crawl dữ liệu trang.

Sử dụng một tệp robots.txt cho nhiều trang web. Vậy có thể dùng 1 URL đầy đủ thay cho một đường dẫn tương đối không?

Không, những lệnh trong file robots.txt (ngoại trừ sitemap:) chỉ áp dụng cho những đường dẫn tương đối.

Làm thế nào để ngưng toàn bộ hoạt động thu thập dữ liệu trang Website của mình?

Bạn cũng có thể tạm ngưng toàn bộ hoạt động thu thâp dữ liệu bằng cách trả về một mã kết quả http 503 cho tất cả URL, bao gồm cả File robots.txt. Bạn không nên thay đổi file robots.txt để chặn hoạt động thu thập dữ liệu.

Làm thế nào để chặn tất cả Website Crawler?

Bạn cần thực hiện như sau:

  1. Truy cập vào Settings (Cài đặt) → Chọn “Reading” (đọc).
Chọn đọc Trong Mục Cài đặt Của WordPress
Chọn đọc Trong Mục Cài đặt Của WordPress
  1. Bạn chọn ô bên cạnh tùy chọn “Search Engine Visibility“(Công cụ tìm kiếm hiện hữu). Tích chọn vào ô “Discourage search engines from indexing this site
Chọn Discourage Search Engines From Indexing This Site để Chặn Tất Cả Các Web Crawler Index Site Của Bạn
Chọn Discourage Search Engines From Indexing This Site để Chặn Tất Cả Các Web Crawler Index Site Của Bạn

Khi đã được chọn thì WordPress thêm dòng này vào tiêu đề của Website của bạn:

meta name='robots' content='noindex,follow'

WordPress cũng thay đổi File robots.txt của Website của bạn và thêm những dòng này:

User-agent: *
Disallow: /

Những dòng yêu cầu các robot (các web crawler) không index trang của bạn. Nhưng mà cũng còn phụ thuộc vào việc những công cụ tìm kiếm chấp nhận yêu cầu này hay bỏ qua.

Chặn trình thu thập, tìm kiếm thông tin của Google:

Để chặn trình thu thập và tìm kiếm thông tin của Google (User-agent: Googlebot) không thu thập bất cứ trang có chứa chuỗi URL www.example.com/example-subfolder/. Bạn sử dụng cú pháp như sau:

User-agent: Googlebot
Disallow: /example-subfolder

Chặn trình thu thập thông tin của Bing:

Bạn sử dụng cú pháp sau:

User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html

Robots.txt, meta robot và X-robot khác nhau như thế nào?

File Robots.txt là tệp văn bản trong khi đó Meta robot và X-robot là Meta Directives. Ngoài ra, chức năng của 3 loại robot cũng khác nhau hoàn toàn.

Meat robot là những đoạn mã cung cấp hướng dẫn cho trình thu thập thông tin về cách thu thập dữ liệu hay lập chỉ mục nội dung Website.

Thẻ Meta Robot
Thẻ Meta Robot

Thẻ Meta Robot được đặt vào phần <head> của Website và có cấu trúc như:

<meta name="robots" content="noindex" />

X – robot là một phần tiêu đề HTTP được gửi từ máy chủ Website. Không giống như thẻ Meta robots, thẻ này không được đặt trong HTML của trang (tức phần <head> của trang web).

Thẻ X Robots
Thẻ X-Robots

X – robots được sử dụng để ngăn những công cụ tìm kiếm lập chỉ mục những loại tệp cụ thể như hình ảnh hay PDF, ngay cả đối với những tệp không phải HTML.

Bất kỳ lệnh nào dùng được trong thẻ meta robots cũng có thể chỉ định là một X-Robots. Bằng cách cho phép kiểm soát cách những loại tệp cụ thể được lập chỉ mục, X – robot cung cấp sự linh hoạt hơn thẻ Meta robots và file robots.txt.

Tạo lập File robots.txt chuẩn ra lệnh cho việc Index toàn bộ Website hay thư mục. Trong khi đó, Meta robot và X-robot có thể ra lệnh Index ở câp độ trang riêng lẻ.

Trên đây là những thông tin tạo robots.txt WordPress mà Themenest muốn chia sẻ với bạn. Qua đây bạn cũng biết được cách kiểm tra website của mình có chứa File robots.txt hay không và cách tạo lập file robots.txt chuẩn. Nếu như có thắc mắc gì thì hãy để lại bình luận ở dưới nhé!

Nếu bạn có thắc mắc hay có vấn đề cần hỗ trợ, bạn có thể liên hệ trực tiếp với ThemeNest thông qua các kênh sau:

  • Hotline: 0902 170 180
  • Email: sales@themenest.vn

ThemeNest hiện đang có chương trình khuyến mãi dành cho khách hàng mua theme wordpress. ThemeNest sẽ hỗ trợ quý khách 24/24 với chất lượng theme tốt nhất!

Có tất cả 0 bình luận

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

0902 170 180