Thứ Ba, 24 tháng 6, 2014

Robots.txt file

Lần đầu tớ nghe đến tên robots.txt, tớ đã đi hỏi thằng bạn tớ "robot.txt là gì?", câu trả lời dường như đã được biết từ trước: "gu gồ"
Một câu trả lời theo đánh giá của tớ là rất ngắn gọn, xúc tích và đầy đủ thông tin.

Hãy thử serach google, có khoảng 3.750.000 kết quả tìm kiếm :)).
Tiếng anh và tiếng việt đều rất đầy đủ.

Quay trở lại câu hỏi, robots.txt là gì?
Robots.txt is common name of a text file that is uploaded to a Web site's root directory and linked in the html code of the Web site. The robots.txt file is used to provide instructions about the Web site to Web robots and spiders. Web authors can use robots.txt to keep cooperating Web robots from accessing all or parts of a Web site that you want to keep private.
Có lẽ đã là đủ cho một câu trả lời hoàn chình đối với câu hỏi trên.


Robots.txt có thể cho phép từng loại robot khác nhau của các SE khác nhau có thể vào website hay từng khu vực của website hay không?

Chủ sở hữu trang web sử dụng robot.txt file để đưa ra hướng dẫn về site của họ  tới web robot, và được gọi là The Robots Exclusion Protocol

Một robot muốn vào một trang web, ví dụ như:
http://www.example.com/welcome.html
Thì trước tiên nó phải check thông tin trong
http://www.example.com/robots.txt
Và tìm thông tin trong file robots.txt. Ví dụ thông tin như sau:
User-agent: *
Disallow: /
Disallow: /admin/
Ý nghĩa của các thông tin đó là gì?
"User-agent: * ": nghĩa là section này được áp dụng với tất cả các robot
"Disallow: /": báo cho robot biết rằng, nó không nên truy cập vào bất kì trang nào trong site của bạn
"Disallow: /admin/"  : chặn thư mục admin và tất cả những gì nằm trong thư mục admin.

Những vấn đề quan trọng mà bạn cần quan tâm khi sử dụng robot.txt file:
- Phân biệt chữ hoa chữ thường.
- Không được viết dư, thiếu khoảng trắng.
- Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.
- Mỗi một câu lệnh nên viết trên 1 dòng.

Vậy làm thế nào để bạn tạo ra một file robots.txt?

1. Bạn đặt nó ở đâu?
Bạn đặt nó trong top-level directory ( thư much gốc) web server cùa bạn.
Tham khảo thêm:
2. Robots.txt chứa những gì?
Đây là một file text, và nó có thể chứa một hoặc nhiều records (thông tin). Cấu trúc của file chứa single record sẽ như thế này:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /etc/

Trong ví dụ trên, có 3 thư mục được chặn.

Một số trường hợp hay sử dụng.

a. Khóa toàn bộ website không cho robot đánh chỉ mục.

    User-agent: *
    Disallow: /

có nghĩa là cấm tất cả các loại robot truy cập vào tất cả tài nguyên có trên website của bạn.

b. Không cho phép robot truy cập vào thư mục nào mà mình không muốn.

Lấy lại ví dụ trên :
    User-agent: *
    Disallow: /tmp/
    Disallow: /etc/
Điều này có nghĩa là cho phép tất cả các loại robot thu thập chỉ trừ 2 thư mục /tmp/ và /etc/.

c. Chặn một bot nào đó.
    User-agent: Googlebot
    Disallow: /

    User-agent: *
    Disallow: /admin/
    Disallow: /includes/
 Để bắt đầu chỉ định mới thì bạn hãy đặt một dòng trắng. Và bot Googlebot bị cấm truy cập tất cả tài nguyên. Trong khi các bot khác  được truy cập tất cả trừ thư mục “admin” và "includes".

d. Sử dụng đồng thời “Allow” và “Disallow” cùng nhau.
    User-agent: Googlebot
    Disallow: /etc/
    Allow: /admin/
có nghĩa là chặn Googlebot truy cập vào tài nguyên có trong thư mục "/etc/". Nhưng chỉ có thể truy cập được file "/admin/".

Cuối cùng, làm thế nào để check robots.txt file?

Đây là một file được public.
Bạn có thể xem nó bằng cách thêm "/robots.txt/" vào cuối đường link. Ví dụ
                 http://hn.24h.com.vn/robots.txt
sẽ cho kết quả như thế này:
User-agent: *
Allow: /
Disallow: /ajax/
Disallow: /ocm/
Disallow: /ad/
Disallow: /tools/
Disallow: /webservices/
Disallow: /crondaemon/
Disallow: /trienkhai/
Sitemap: http://www.24h.com.vn/sitemap-index.xml

Kết luận:
Robots.txt giúp cho các webmaster linh hoạt hơn trong việc cho hay không cho robot của các công cụ tìm kiếm(SE) đánh chỉ mục(index) một khu vực nào đó trong website.

Bonus:
SE (Search Engines): Chính là máy tìm kiếm hay còn gọi là công cụ tìm kiếm viết tắt là SE. Là một hệ thống thông minh được lập trình và nâng cấp nhằm tìm kiếm kết quả và lập chỉ mục cho các website. Các SE không ngừng phát triển để hỗ trợ tối ưu hơn cho nhu cầu tìm kiếm thông tin trên các website toàn cầu. Chúng dựa trên các từ khóa tìm kiếm của người dùng, từ đó phân tích trong cơ sở dữ liệu siêu lớn ( meta database) để trả lại danh sách kết quả phù hợp. Nổi tiếng là các SE như Google, Yahoo, Bing…

Không có nhận xét nào:

Đăng nhận xét