xác thực google maps

Những Điều Thú Vị Về File Robots.txt

Thảo luận trong 'Thảo luận SEO' bắt đầu bởi htruh, 5 Tháng một 2017.

Lượt xem: 4,360

  1. htruh

    htruh Thành viên

    Bài viết:
    274
    Đã được thích:
    109
    Trong bài viết này, tôi sẽ gửi đến bạn những điều thú vị về file robots.txt và những sáng tạo mà các công ty đã tạo ra cùng với file robots.txt của họ.

    image001.jpg

    Một trong những chủ đề nhàm chán nhất trong kỹ thuật SEO có lẽ là file robots.txt. Rất hiếm khi ta tìm được một vấn đề thú vị nào đó có thể giải quyết trong file robots.txt, và hầu hết các lỗi đến từ việc không hiểu các lệnh chỉ thị hoặc nhầm lẫn trong chính tả. Về cơ bản thì mục đích của file robots.txt đơn giản chỉ là chỉ thị, gợi ý những con bọ tìm kiếm của google nơi có thể thu thập dữ liệu và nơi không thể thu thập dữ liệu.

    Phần cơ bản của file robots.txt

    - User-agent : Khai báo loại robot

    - Disallow: Khuyến cáo bọ tìm kiếm không thu thập dữ liệu

    - Allow: Cho phép bọ tìm kiếm thu thập dữ liệu

    - Crawl-delay: Nói với bọ tìm kiếm đợi một thời gian nhất định nào đó trước khi tiếp tục thu thập thông tin

    - Sitemap: Khai báo vị trí của tệp sitemap

    - Noindex: Nói với Google xóa một page khỏi danh sách index

    - # : Đánh dấu này dùng để giải thích code (bọ tìm kiếm sẽ không đọc dòng thông tin có kí tự này đầu tiên)

    - * - Đại diện cho tất cả các kí tự (match any text)

    - $ - Đường dẫn phải kết thúc ở đây


    Những thứ khác bạn nên biết về file robots.txt



    - Robots.txt phải được nằm trong thư mục chính, vd: domain.com/robots.txt

    - Mỗi một subdomain cần 1 file robots.txt riêng – www.domain.com/robots.txt khác với domain.com/robots.txt

    - Bọ tìm kiếm có thể bỏ lơ file robots.txt

    - Đường dẫn trong file robots.txt là case-sensitive (phân biệt chữ hoa chữ thường)

    - Disallow đơn giản chỉ gợi ý bọ tìm kiếm không đi đến địa điểm đó, nhiều người sử dụng nó với mục đích de-index pages và nó sẽ không hiệu quả. Nếu ai đó liên kết đến một trang bên ngoài, nó sẽ vẫn được hiện trên trang kết quả tìm kiếm

    - Crawl-delay không được Google khuyến khích, nhưng bạn có thể cài đặt bọ tìm kiếm trong Google Search Console.

    - Khai báo file robots.txt của bạn trong Google Search Console

    Mã:
     https://www.google.com/webmasters/tools/robots-testing-tool?utm_source=support.google.com/webmasters/
    hoặc Bing webmaster tools

    Mã:
     https://www.bing.com/webmaster/help/fetch-as-bingbot-fe18fa0d
    - Noindex sẽ có tác dụng, những Google Webmaster Trends Analyst John Mueller Khuyến khích không nên dùng nó.

    Mã:
     https://twitter.com/JohnMu/status/638644112359604224?ref_src=twsrc%5Etfw
    Tốt hơn hết thì bạn có thể dùng nó thông qua meta robots hoặc x-robots

    - Đừng chặn bọ thu thập dữ liệu với mục đích tránh nội dung trùng lặp. Đọc thêm tại đây

    Mã:
     http://searchengineland.com/myth-duplicate-content-penalty-259657 
    - Đừng bao giờ disallow page redirect vì bọ google sẽ không thể theo trang chuyển hướng đó được

    - Disallow page sẽ ngăn cản phiên bản trước đó được hiển thị trên archive.org

    - Bạn có thể tìm trên archive.org file robots.txt trước đó chỉ bằng cách gõ địa chỉ là domain.com/robots.txt


    Những điều sáng tạo các công ty đã làm với file robots.txt của họ


    Rất nhiều công ty đã tạo ra những điều cực kì thú vị và sáng tạo với file robots.txt của họ, hãy cùng nhìn những ví dụ dưới đây

    - Nghệ thuật ASCII và Thông báo tuyển dụng

    Nike.com đã khéo léo chèn logo của họ vào trong file robots.txt

    Mã:
     http://www.nike.com/robots.txt
    image003.png

    Seer đồng thời cũng đã chèn thông điệp tuyển dụng cùng tên công ty trong file robots.txt

    Mã:
     http://www.seerinteractive.com/robots.txt

    image005.png

    TripAdvisor đã cho ngay thông báo tuyển dụng của họ trong file robots.txt

    image006.png

    Ngoài ra còn rất nhiều những điều thú vị khác trong file robots.txt như bên dưới

    image008.png

    Yelp đã nhắc nhở Robots về bộ luật Asimov’ Three Laws của họ

    Mã:
     https://yelp.com/robots.txt
    Cũng giống như Last.fm đã làm với file robots của họ

    Mã:
     http://www.last.fm/robots.txt
    image009.png

    Hay như Youtube: Chúng ta đã thua trong cuộc chiến với robots

    Mã:
     https://www.youtube.com/robots.txt
    image010.png


    Xây dựng cả 1 website bên trong file robots.txt @@

    Đây là một ý tưởng của Alec Bertram, điều này được ông làm không ở đâu khác mà ở chính file robots.txt của ông ấy

    Mã:
     https://awebsiteinsidemy.com/robots.txt 
    Và thậm trí có cho cả hướng dẫn mọi người cách làm như ông ấy

    Điều này cũng đã được sử dụng trên vinna.cc để nhúng cả một trò chơi vào trong file. Bạn đã từng nghe tới https://vinna.cc/robots.txt và chơi trò chơi robots robots revolution bao giờ chưa?

    image011.png

    Bài viết được thu thập từ rất nhiều nguồn khác nhau và từ nhiều tác giả khác nhau đây là danh sách tác giả

    Mã:
     http://searchengineland.com/staff
    Được biên soạn và đăng tải trên Search Engine Land – Biên dịch và chỉnh sửa: Trung Hiếu


    Nếu thấy bài viết hay và hữu ích thì đừng quên like để động viên mình chia sẻ tiếp nhé.

    Mời các bạn đọc thêm bài chia sẻ: 5 sai lầm ngớ ngẩn ảnh hưởng tiêu cực tới SEO Cần tránh của mình, trong 5 sai lầm này, thì sai lầm thứ 3 nói về file robots.txt.

    Mã:
    https://forum.idichvuseo.com/threads/5-sai-lam-ngo-ngan-anh-huong-tieu-cuc-toi-seo-can-tranh.49138/#post-591255

    Thông Tin Liên Hệ:

    Họ Tên: Hoàng Trung Hiếu

    Facebook: fb.com/sneaker.294

    Skype: live:hieuht.hanu

    Email: hieuht.hanu@gmail.com
     
    Kenji, Mr.N2 and Zxc like this.
  2. minhgln

    minhgln Thành viên

    Bài viết:
    105
    Đã được thích:
    17
    Trước giờ mình toàn để auto file robots.txt, nếu chỉnh thì chỉ thêm đường dẫn sitemap vào thôi. Giờ mới biết cái file bé tẹo này cũng làm được lắm trò phết :D
     
  3. Zxc

    Zxc Thành viên tích cực

    Bài viết:
    439
    Đã được thích:
    95
    Danh sách các điều thú vị mà các website từng làm với file robot thiệt là cạn lời mà =))
    Đúng là nghệ thuật có thể xuất hiện ở bất cứ nơi đâu, chỉ cần có sáng tạo :D
     
  4. chautuan

    chautuan Thành viên

    Bài viết:
    84
    Đã được thích:
    11
    Đưuọc mỗi cái đầu tiên và cái sitemap :D trước giờ làm cho gọi là có thôi.
     
  5. htruh

    htruh Thành viên

    Bài viết:
    274
    Đã được thích:
    109
    Bạn nên tham khảo bài viết này. thực sự thì đôi khi file robots.txt cũng có thể làm bạn mất tất cả website đó.
    Bạn đọc lỗi thứ 3 nhé
    Mã:
    https://forum.idichvuseo.com/threads/5-sai-lam-ngo-ngan-anh-huong-tieu-cuc-toi-SEO-can-tranh.49138/#post-591255
     
  6. phucnguyenseoer

    phucnguyenseoer Thành viên

    Bài viết:
    157
    Đã được thích:
    49
    Seer đồng thời cũng đã chèn thông điệp tuyển dụng cùng tên công ty trong file robots txt

    cai sitemap dep kinh
     
  7. Lan_san

    Lan_san Dự bị

    Bài viết:
    14
    Đã được thích:
    4
    Có nên xóa Disallow: /wp-includes/ trong robot không ak?
    Em phát hiện web mới nhận bị chắn 921 page do dòng chặn kia? Mọi người cho e ý kiến với help me
     
  8. hitlehung

    hitlehung Thành viên nhiệt tình

    Bài viết:
    977
    Đã được thích:
    172
    Theo mình nghĩ, với người làm seo quan trọng của file robot chỉ là cho phép hay không cho phép bot crawl vào site mình thôi, bên cạnh đó là mang tính tường minh cho sitemap, còn nghệ thuật là yếu tố trang trí, cho cv seo thêm sinh động.
     
  9. ducquyen

    ducquyen Thành viên

    Bài viết:
    223
    Đã được thích:
    31
    Đa số các seo chỉ quan tâm đến hai chức năng chính là chặn và cho phép index trang, Con lại thì không quan tâm nhiều. Khai báo sitemap thì có người cho vào có người không
     
  10. CuongTino

    CuongTino Thành viên nhiệt tình

    Bài viết:
    581
    Đã được thích:
    174
    Mình không ngờ file robot.txt bé nhỏ như vậy mà lại làm được những điều không tưởng. Có khi mình phải nghiên cứu thêm rồi làm cái gì đó hay hay cho cty mình :))
     

Chia sẻ trang này