xác thực google maps

File Robots.txt và tác dụng File Robots.txt trong SEO

Thảo luận trong 'Thủ thuật SEO' bắt đầu bởi ngonmoingay, 31 Tháng mười hai 2018.

Lượt xem: 2,789

  1. ngonmoingay

    ngonmoingay Dự bị

    Bài viết:
    9
    Đã được thích:
    9
    File Robots.txt là gì
    File Robots.txt là một dạng thư mục gốc nằm trong một website. File này được các webmaster tạo ra nhằm quản lý quyền truy cập của các con bọ tìm kiếm. Cụ thể: Nó giúp các webmaster linh hoạt hơn trong việc cho phép bot lập chỉ mục hoặc không cho phép lập chỉ mục ở một khu vực nào đó trong website.

    Robots.txt là gì
    Robots.txt là một dạng text đặc biệt, không phải là HTML hay là một loại nào khác. Robots.txt giúp cho webmaster linh hoạt hơn trong việc quản lý index của công cụ tìm kiếm. Nó hướng dẫn cho con bọ của công cụ tìm kiếm được phép index hay không được phép index. Trong một website có rất nhiều mục không cần phải cho con bọ tìm kiếm index tới như admin, image,… Vì vậy bạn phải chặn bọ tìm kiếm, không cho phép index những link không quan trọng, để bọ tìm kiếm có thời gian index cho các link quan trọng khác.

    mau-code.png


    Tầm quan trọng của tệp Robots.txt
    Nếu không có file Robots.txt thì bọ tìm kiếm sẽ vào tất các trang có sẵn trên trang website của bạn. Nó sẽ thu thập tất cả dữ liệu để thêm vào chỉ mục index của công cụ tìm kiếm. Như vậy bọ tìm kiếm sẽ tốn thời gian vào những trang không cần thiết, bỏ qua những trang rất quan trọng mà bạn muốn SEO.

    Nếu như file Robots.txt không được định dạng tốt vì nó bị dính cấu hình sai. Thì con bọ của các công củ tìm kiếm không thể hiểu được nội dung của file. Con bọ có thể truy cập vào tất cả các trang trên Website của bạn như trường hợp không có file robots.txt.

    Nếu bạn vô tình chặn các công cụ tìm kiếm truy cập vào trang website của bạn thì đó là một vấn đề nguy hại lớn cho website của bạn. Đối với website mới xây dựng thì công cụ tìm kiếm sẽ không thể thu thập thông tin để lập chỉ mục index. Đối với những site đã có index thì công cụ tìm kiếm sẽ dần xóa hết bất kỳ trang nào trong chỉ mục đã được index vì con bọ tìm khiếm không thể thu thập thông tin được nữa.

    Bạn nên có Robots.txt ngay cả khi trang web của bạn không muốn loại bỏ bất kỳ trang hay thư mục nào khỏi sự xuất hiện trong kết quả công cụ tìm kiếm.

    Các tệp lệnh trong File Robots.txt
    File Robots.txt được nằm trong thư mục gốc của website. Bạn muốn kiểm tra website của bạn có Robots.txt hay chưa thì bạn chỉ cần thêm Robots.txt sau tên miền của bạn. Nếu như bạn truy cập vào được thì website bạn đã có Robots.txt.

    kiem-tra-file-robots-txt.jpg

    Một số lệnh trong File Robots.txt

    • User-agent : tên loại của bọ tìm kiếm
    • Allow : cho phép
    • Disallow : không cho phép
    • Sitemap : đường dẫn sơ đồ của trang web
    Ghi chú: dấu * thay cho mỗi chỗi, có nghĩa là áp dụng với tất cả. Mỗi công cụ thu thập dữ liệu đều có tên như googlebot, bingbot, cocobot…. Nếu bạn muốn chặn một loại bot củ thể thì ta phải khai báo tên công cụ của loại bot đó.

    Robots.txt áp dụng tốt trong SEO
    Sử dụng File Robots.txt chặn google (áp dụng với website trong quá trình xây dựng)
    Trong quá trình bạn đàng xây dựng để hoàn thiện website, là giai đoạn website trong quá trình demo chưa có nội dung, hình ảnh, cấu trúc… thì bạn nên chặn google lập chỉ mục index trong thời gian này.

    Cấu trúc File Robots.txt chặn:

    User-agent : *

    Disallow: /

    Sử dụng File Robots.txt để quy định cho nội dung nào được lập chỉ mục index, nội dung nào không được lập chỉ mục index.
    cau-truc-danh-muc-website.jpg

    Ví dụ: tôi có 1 website là domain.com và có 2 danh mục apple (domain.com/apple) và samsung (domain.com/samsung)

    Danh mục samsung chứa những bài viết kém chất lượng copy để kéo view nên tôi không muốn google đọc và index nội dung này. Bởi thế nên tôi sẽ chặn nó.

    Cấu trức là:

    User-agent : *

    Disallow: /samsung

    Nghĩa là chặn tất cả đường dẫn nào có từ samsung sau dấu /

    Sử dụng File Robots.txt để quy định chặn một hình ảnh nào đó
    cấu trúc robots.txt chặn hình ảnh

    User-agent : *

    Disallow: /images/tenhinhanhcanchan.jpg

    Nghĩa là chặn 1 hình ảnh nào đó từ website của bạn, ngăn không cho google lập chỉ mục index ảnh đó.

    Sử dụng File Robots.txt để quy định chặn tất cả các dữ liệu trong thư mục trừ file nào đó.
    Câu trúc:

    User-agent: *

    Disallow: /thumucbichan/

    Allow : /thumucbichan/filekhongbichan.html

    Có nghĩa là chặn bọ tìm kiếm tất cả dữ liệu trong thư mục /thumucbichan/ nhưng lại cho phép lập chỉ mục index file /filekhongbichan.html

    Cách kiểm tra và xác nhận lệnh hợp lệ robots.txt
    Có 2 cách để kiểm tra và xác nhận lệnh hợp lệ robots.txt

    Bạn có thể xem nội dung robots.txt của mình bằng cách dùng trình duyệt để kiểm tra link domain/robots.txt.

    kiem-tra-file-robots-txt.jpg

    Hoặc bạn có thể kiểm tra và xác nhận link thông qua tùy chọn robots.txt Tester của Google search console.

    Đăng nhật vào tài khoản Google search console của bạn => vào nút tùy chọn Crawl rồi nhấn vào nút robots.txt Tester => nút TEST.

    Bạn thấy nút test chuyển sang màu xanh là bạn đã cho phép(Allow) con bọ tìm kiếm lập chỉ mục.

    robots-txt-cho-phep-index.jpg

    Bạn thấy nút test chuyển sang màu đỏ là bạn đã không cho phép (Disallow) con bọ tìm kiếm không được phép lập chỉ mục. Bên cạnh đó công cụ này còn chỉ ra vì sao link này bị chặn để tối ưu file robots.txt trong SEO.

    robots-txt-khong-cho-phep-index.jpg



    Robots.txt với WordPress
    Tất cả những gì mà bạn đọc về robots.txt cũng là áp dụng cho trang web wordpress.

    WordPress mặc định sử dụng file robots.txt ảo. Điều này đồng nghĩa với việc bạn không thể trực tiếp chỉnh sửa file hoặc tìm thấy nó trong thư mục gốc của bạn. Bạn có thể xem nội dung của file này bằng cách truy cập link có định dạng như sau:

    ://ten-mien-cua-ban/robots.txt

    Nội dung mặc định của wordpress Robots.txt là:
    User-agent: *

    Disallow: /wp-admin/

    Allow : /wp-admin/admin-ajax.php

    Sử dụng Plugins Yoast SEO thì mọi thứ sẽ dể dàng hơn với việc chỉnh sửa file robots.txt bằng các thao tác SEO – tools – File editor và chỉnh nội dung robots.txt sau đó lưu lại.

    sua-file-wordpress-robots-txt.jpg

    Thêm một lưu ý khi bạn mới xây dựng website wordpress bạn nên lựa chọn cấu hình chặn tất cả các công cụ tìm kiếm trên trang web của bạn. Sau khi bạn hoàn thiện nội dung trên website thì bạn phải vào mở ra cho các công cụ tìm kiếm được phép thu thập thông tin và lập chỉ mục index.

    setting-reading-wordpress-cho-phep-tim-kiem.jpg

    Robots.txt rất tốt cho SEO
    Bạn có thể kiểm tra Robots.txt của bạn và đảm bảo là bạn không chặn bất kỳ phần nào của web mà bạn muốn xuất hiện trong công cụ tìm kiếm.

    Google trong quá trình thu thập dữ liệu lập chỉ mục index có thể xem trang website như một người dùng thực. Bạn cần phải cho phép con bọ tìm kiếm đọc các tập tin JS và CSS. Như vậy nó mới có thể hoạt động đúng cách.

    Bạn đang sử dụng WordPress bạn không cần phải chặn truy cập các thư mục wp-admin, wp-include. WordPress sẽ thực hiện công việc tuyệt vời này bằng thẻ meta robots.

    Bạn không nên cố gắng chỉ định các quy tắc khác nhau cho mỗi bọ của công cụ tìm kiếm vì có thể gây nhầm lẫn và khó để cập nhập. Sử dụng “User-agent : *” là tốt nhất và đồng thời cung cấp một bộ quy tắc cho tất cả các quy trình.

    Hy vọng rằng bài viết này mang đến cho bạn những kiến thức bộ ích về File robots.txt . Tầm quan trọng và ảnh hưởng của nó đối với công củ tìm kiếm. Cũng như cách tối ưu file robots.txt để nâng hiệu quả tốt nhất trong SEO.
     
  2. Nguyenheri

    Nguyenheri Thành viên

    Bài viết:
    242
    Đã được thích:
    30
    Lúc mới đầu seo cũng không biết cái robot là gì. Nhưng tìm hiểu thì chỉ cấu hình 1 lần rồi khi lập web. Những ai mới seo thì nên đọc bài này.
     
    ngonmoingay thích bài này.
  3. KimiRunner

    KimiRunner Thành viên

    Bài viết:
    228
    Đã được thích:
    90
    File robots.txt có hay không chẳng sao hết, trừ khi muốn chặn hạn chế bot crawl cái gì đó thì nên config thôi.
     
    ngonmoingay thích bài này.
  4. tuannguyenkute

    tuannguyenkute Thành viên nhiệt tình

    Bài viết:
    567
    Đã được thích:
    110
    Trước mình mới bất đầu làm seo không quan tâm tới File robots này cho lắm, sau một thời gian làm thì lại thấy nó rất quan trọng đối với ngành seo này, nó có thể bảo vệ và ngăn chặn được hacker và ngăn chặn những link xấu từ xác site khác trỏ về. Cám ơn bài viết chia sẽ của chủ top nhiều nha. Rất hữu ích cho những bạn nào đã và đang quan tâm tới File robots cho trang web của mình.
     
    ngonmoingay thích bài này.
  5. vanviettien

    vanviettien Thành viên

    Bài viết:
    71
    Đã được thích:
    19
    file robots txt này khá quan trọng với những website có độ rộng lớn.
    Nhờ nó mà mình mới chặn được những bài viết không cần thiết.
    Tại forum file này có tác dụng rõ rệt hơn. Nhờ nó mà mấy mục spam không bị google index.
     
    ngonmoingay thích bài này.
  6. dovanphuong

    dovanphuong Thành viên nhiệt tình

    Bài viết:
    849
    Đã được thích:
    404
    Bạn nhầm. Khi bạn không có file robots hoặc không cấu hình nó thì mặc định các bot hiểu là được phép thu thập dữ liệu. Trong khi đó đâu phải chỉ có bot google mà còn ti tỉ các loại bot khác nữa. Không phải tự nhiên các trang phân tích website như Ahrefs, Majestic,... lại có dữ liệu website của bạn đâu. Mỗi khi bot vào thu thập dữ liệu thì sẽ tốn băng thông, server phải xử lý,... nên nếu biết dùng robots chặn các bot linh tinh thì cũng góp phần giảm tải cho server, đỡ phải làm việc với bọn "vớ vẩn".
     
    ngonmoingay thích bài này.
  7. KimiRunner

    KimiRunner Thành viên

    Bài viết:
    228
    Đã được thích:
    90
    không biết đã đọc kỹ comment của mình chưa :). Đã nói ở trên là cần config để chặn bot hay chặn access vào những mục cụ thể thì mới cần robots. Còn không thì có hay không không ảnh hưởng đến việc crawl web bạn của Google. Nhiều người tưởng là phải có robots mới bot engine đọc được trang web, nhưng không, nó đọc từ nhiều nguồn khác nhau, từ backlink v.v..v. Còn nói đến chuyện server lại là câu chuyện khác.
     
    ngonmoingay thích bài này.
  8. Sahara

    Sahara Thành viên

    Bài viết:
    72
    Đã được thích:
    21
    Bài viết khá bổ ích và chi tiết cụ thể cho dân seo, nói rất rõ các lệnh phải làm. cám ơn bạn đã chi sẻ
     
    ngonmoingay thích bài này.
  9. Dungkendy

    Dungkendy Dự bị

    Bài viết:
    7
    Đã được thích:
    1
    Khi các bạn cập nhật lại file robots.txt thì nhớ lên google webmaster submit lại nó để google index cho nhanh, chứ thay đổi mà đợi nó đi cập nhật lại hơi lâu à
     
  10. ChoVayTienNhanh

    ChoVayTienNhanh Thành viên nhiệt tình

    Bài viết:
    747
    Đã được thích:
    101
    Phần giới thiệu nào có theerr đã khá đầy đủ cho 01 site xài WP rồi đó Bác ! Một số plugins của WP cũng hỗ trợ tối ưu luôn file ht access đó!
     

Chia sẻ trang này