xác thực google maps

URL bị hạn chế bởi robots.txt

Thảo luận trong 'Công cụ tìm kiếm' bắt đầu bởi baolekprint, 5 Tháng tư 2018.

Lượt xem: 15,354

  1. baolekprint

    baolekprint Thành viên tích cực

    Bài viết:
    434
    Đã được thích:
    66
    Lâu nay mình vẫn post bài, và bài viết vẫn index bình thường và các từ khóa vẫn duy trì top. Mình cũng hay vào kiểm tra webmaster tool nhưng không có lỗi gì. Đợt này vào kiểm tra thì phát hiện lỗi URL bị hạn chế bởi robots.txt, mình kiểm tra file robots.txt có cấu trúc như sau, mọi người cho mình ý kiến xem có vấn đề gì không nhé.
    User-agen: *
    Disallow: /
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Ngoài ra mình kiểm tra sitemap thì vẫn thấy đã lập chi mục đàng hoàn, test googlebot cũng cho kết qua allow.
    Đợt này từ khóa banh top hết, đúng là tẩu hỏa nhập ma với google
     
  2. newbee

    newbee Thành viên

    Bài viết:
    107
    Đã được thích:
    24
    Disallow: /
    Cái này là nó chặn index tất cả các page trên web rồi :(
    Demo của vnexpress
    Mã:
    User-agent: *
    Allow: /
    Sitemap: https://vnexpress.net/sitemap/1000000/sitemap.xml
     
  3. jaysol

    jaysol Thành viên

    Bài viết:
    147
    Đã được thích:
    20
    Trên lý thuyết thì mình nghĩ các bài viết của bạn sẽ dần bị mất index, từ khóa sẽ bay dần dần chứ nhỉ, làm sao bot index được nội dung khác ngoài trang chủ
     
  4. baolekprint

    baolekprint Thành viên tích cực

    Bài viết:
    434
    Đã được thích:
    66
    Cảm ơn bác đã chia sẽ, lỗi Disallow: / mình đã bỏ rồi. bây giờ mình gửi sitemap lại cho google trong search console. cho mình hỏi thêm, vì hiện tại theo như danh sách data bot thì có quá nhiều robot thu thập dữ liệu tốt có, xấu có, vậy mình có nên chặn không? và có cách nào chặn hiệu quả không mấy bác
     
  5. Teocoi

    Teocoi Thành viên

    Bài viết:
    240
    Đã được thích:
    46
    Cái này mình cũng chưa hiểu về file robot.txt cho lắm. Các cao thủ đóng góp ý kiến xem nào
     
  6. baolekprint

    baolekprint Thành viên tích cực

    Bài viết:
    434
    Đã được thích:
    66
    file robots giống như nội quy của doanh nghiệp, mọi người (các bot) trong công ty phải tuân thủ theo các quy định của công ty, ví dụ cho phép những loại bot nào vào web, và chỉ cho vao thư mục nào, còn thư mục nào không cho vào, cấu trúc của nó như sau:
    User-agent: *
    Allow: /
    nghĩa là tác nhân ở đây là mọi loại bot đều được vào, cho phép truy cập toàn bộ trang web, còn nhiều mục đích khác nhau, nên mỗi người có thể thay đổi các thông số phía sau
     
  7. teckvi

    teckvi Thành viên nhiệt tình

    Bài viết:
    585
    Đã được thích:
    93
    Đợt này vào kiểm tra thì phát hiện lỗi URL bị hạn chế bởi robots.txt, mình kiểm tra file robots.txt có cấu trúc như sau, mọi người cho mình ý kiến xem có vấn đề gì
    User-agen: *
    Disallow: /
    Disallow: /wp-admin/
    Disallow: /wp-includes/

    => Disallow: / là chặn hết rồi
    phải sửa là Allow: /
     
  8. never_love

    never_love Thành viên tích cực

    Bài viết:
    413
    Đã được thích:
    88
    Danh sách data bot ý bạn là chỗ nào nhỉ? Nếu bot của các công cụ tìm kiếm lớn thì không vấn đề gì, có những công cụ tìm kiếm vớ vẩn nếu ko thích thì chặn đi, tại nguồn traffic vào từ đó cũng chẳng ra gì
     
  9. Phan Tâm

    Phan Tâm Thành viên nhiệt tình

    Bài viết:
    761
    Đã được thích:
    202
    Bạn cứ vào 1 site chất nào đó xem cấu trúc robots.txt của họ rồi tùy biến theo cấu trúc site của bạn là được :) Nói chung file robots.txt chỉ động đến 1 lần lúc bắt đầu onpage cho site, về sau thì nên hạn chế động đến nó tránh trường hợp đáng tiếc như vậy.
    Mã:
    https://forum.idichvuseo.com/robots.txt
     
  10. Phongvh

    Phongvh Thành viên tích cực

    Bài viết:
    446
    Đã được thích:
    84
    User-agen: *
    Disallow: /
    Lệnh này có ý nghĩa: “Không cho phép các bot của công cụ tìm kiếm truy cập và đánh chỉ mục trên toàn bộ tài nguyên có trên website của bạn.” bạn nên chuyển thành allow
     

Chia sẻ trang này