xác thực google maps

Không index danh mục và toàn bộ bài trong danh mục, cần cao thủ trợ giúp.

Thảo luận trong 'Hỏi đáp - Trợ giúp SEO' bắt đầu bởi seonguyen, 11 Tháng tám 2015.

Lượt xem: 5,316

  1. lequangtrung

    lequangtrung Thành viên

    Bài viết:
    264
    Đã được thích:
    28
    File robots không chặn mà không index, cái này lần đầu tiên nghe, bạn thử build lại sitemap submit lại thử
     
  2. linhleng

    linhleng Thành viên nhiệt tình

    Bài viết:
    551
    Đã được thích:
    69
    sanbox thì phải bị toàn site chứ bác search site:tenmien thì vẫn index mà
     
  3. Mr.N2

    Mr.N2 Administrator Staff Member

    Bài viết:
    2,254
    Đã được thích:
    5,112
    Hôm qua mình có reply trên FB rồi nhưng bạn làm SEO cho site này dường như chưa hiểu được vấn đề. Mình không phải chuyên gia gì cả nên ai hỏi sao thì mình góp ý vậy, căn bản site này có 02 vấn đề cần xem xét lại.

    - Vấn đề thứ nhất: Site này dùng phân giải CDN của VCCloud. Nếu bạn làm SEO thì cái này cần xem lại nhé, vì mình đã check lại site này bằng User-Agent của Googlebots thì thấy toàn bộ tập tin bao gồm javascript, css, jpg, gif đều bị chặn và thông báo 403 Forbidden. Với thông báo này chẳng khác nào bạn đã đuổi googlebots đi và cấm nó crawl.

    Trên thực tế thì sao, trên thực tế thì site này gọi đến phân giải của CDN, nhưng các bạn hãy nhìn thử xem có bao nhiêu tài nguyên của site này đã được index?

    https://www.google.com/search?q=site:thegioigame.cdn.vccloud.vn

    Bên dưới là full logs mà mình đã giả lập trình duyệt bằng User-Agent của Googlebots, các bạn chú ý xem dòng HTTP/1.1 403 Forbidden

    Google nói về 403 Forbidden https://support.google.com/postini/answer/136620?hl=en

    - Vấn đề thứ hai: Site này cần xem lại chuyển hướng trang web/wap. Mình kiểm tra thử thì thấy thế này, các bạn chú ý cái url bên dưới trình duyệt nhé.

    Category không index, hiển thị:
    thegioigame-gamemobile.jpg

    Category khác index được, hiển thị:
    thegioigame-pcconsole.jpg
     

    Các file đính kèm:

  4. seonguyen

    seonguyen Dự bị

    Bài viết:
    20
    Đã được thích:
    5
    Thank bạn @Mr.N2 . Mình sẽ cùng kỹ thuật bên mình phân tích thêm ! Thực sự mình cũng chưa hiểu hết được cái này.
     
  5. Mr.N2

    Mr.N2 Administrator Staff Member

    Bài viết:
    2,254
    Đã được thích:
    5,112
    Lần sau các bạn có thắc mắc hay muốn hỏi đáp gì đó nên post bài lên IDVS nhé, sau đó gửi link để mình phân tích. Cách này thì tốt hơn là đặt câu hỏi trực tiếp qua tin nhắn, bởi mình sẽ không hiểu vấn đề nếu nó không rõ ràng, mặc khác nếu lúc đó busy thì không trả lời được, dễ mang tiếng chảnh lắm :D

    Mình cũng có test qua CDN của VCCloud rồi, nói chung rất ổn định và phân giải rất tốt. Mỗi tội không cho chạy domain riêng, cũng như thông báo 403 nên mình quyết định không dùng nữa.

    http://forum-idichvuseo.cdn.vccloud.vn
    http://nguyennghia.cdn.vccloud.vn

    Diễn đàn IDVS cũng đang chạy phân giải CDN trên url http://cdn.idichvuseo.com và tất nhiên không chặn chọt Googlebots gì cả :D
     
    sinhvienit and nguyentruong17 like this.
  6. visaolac

    visaolac Dự bị

    Bài viết:
    18
    Đã được thích:
    1
    bạn vào xem lại file .htaccess xem sao. mình cũng nghi như vậy ở trogn mục này
     
  7. sinhvienit

    sinhvienit Thành viên tích cực

    Bài viết:
    474
    Đã được thích:
    95
    Em cũng mới tìm hiểu bác check thử xem có dính một vài điều dưới đây không

    1. Lỗi trong file robots.txt của website sẽ chặn Google lại

    Câu lệnh “disallow” trong file robots.txt là cách dễ dàng nhất để loại bỏ một file hoặc cả một thư mục khỏi việc đánh dấu chỉ mục của Google. Để loại ra những file riêng rẻ, thêm dòng sau vào file robots.txt:

    User-agent: *
 Disallow: /directory/ten-file.html

    Để loại ra toàn bộ thư mục nào đó, sử dụng câu lệnh:

    User-agent: *
 Disallow: /first-directory/
 Disallow: /second-directory/

    Nếu website của bạn có file robots.txt, kiểm tra thật kỹ file robots.txt đó để chắc chắn rằng bạn không loại những thư mục mà bạn muốn nhìn thấy trên kết quả tìm kiếm của Google.

    Lưu ý thằng những vị khách truy cập vào website của bạn vẫn sẽ thấy những trang mà bạn loại ra trong file robots.txt. Kiểm tra website của bạn với Công cụ đánh giá website hoặc dịch vụ khác như http://www.seoprofiler.com để xem có bất cứ vấn đề nào với file robots.txt

    2. Sử dụng thẻ meta robots noindex và Google sẽ bỏ bạn mà đi

    Thẻ meta robots noindex cho phép bạn nói với robots của bộ máy tìm kiếm một trang riêng rẻ trong website không nên được đánh chỉ mục. Để loại trang web ra khỏi kết quả tìm kiếm, thêm đoạn code sau trong phần <head> của trang web:

    <meta name=”robots” content=”noindex, nofollow”>

    Trong trường hợp này, bộ máy tìm kiếm sẽ không thể đánh chỉ mục trang web và cũng không thể theo dấu những liên kết (links) trong trang này. Nếu bạn muốn bộ máy tìm kiếm theo dấu liên kết trong trang web, sử dụng:

    <meta name=”robots” content=”noindex, follow”>

    Trang web sẽ không xuất hiện trong kết quả tìm kiếm nhưng những liên kết vẫn được theo dấu. Nếu bạn muốn chắc chắn rằng Google sẽ index tất cả các trang, bỏ thẻ robots này đi.

    Thẻ meta robots noindex chỉ tác động đến những robot của bộ máy tìm kiếm. Những khách thông thường của website vẫn có thể nhìn thấy trang web của bạn, công cụ đánh giá website như seoprofiler sẽ giúp bạn tìm ra vấn đề gặp phải nếu có từ thẻ meta robots noindex.

    3. Sai mã trạng thái HTTP (HTTP Status Code) sẽ đưa Google ra đi.

    Mã trạng thái từ máy chủ (HTTP Status Code) cho phép bạn đưa những khách hàng thật và robots của công cụ tìm kiếm đến những nơi khác nhau trên website của bạn. Một trang web thường có mã trạng thái “200 OK”. Ví dụ, bạn có thể sử dụng những mã sau đây:

    301 moved permanently – 301 redirect (điều hướng 301): thẻ điều hướng 301 sẽ gửi request hiện tại và những request tương lai đến một URL mới.
    403 forbidden: máy chủ sẽ từ chối đáp ứng lại request.

    Để tối ưu bộ máy tìm kiếm (SEO), mã điều hướng 301 nên được sử dụng nếu bạn muốn đảm bảo khách hàng của trang web cũ sẽ được chuyển tới trang web mới.

    Công cụ đánh giá website sẽ chỉ ra những trang web gặp phải lỗi trạng thái này.

    4. Google sẽ không thể đánh chỉ mục những trang web được bảo vệ bởi password.

    Nếu bạn đặt password bảo vệ trang web, chỉ những người khách nào biết được password mới có thể xem nội dung của trang đó.

    Robots của bộ máy tìm kiếm sẽ không thể truy cập vào website. Trang web có password bảo vệ có thể gây ra những tác động tiêu cực đến trải nghiệm người dùng vì vậy bạn nên kiểm tra kỹ lưỡng trước khi áp dụng điều này.

    5. Nếu trang web của bạn yêu cầu Cookie hay Javascript, Google có thể không lập chỉ mục được trang web của bạn.

    Cookie và Javascript cũng có thể giữ Robots của bộ máy tìm kiếm ra xa khỏi cửa “nhà” bạn. Ví dụ, bạn có thể ẩn nội dung bằng cách chỉ cho phép những User Agents nào chấp nhận cookie truy cập .

    Bạn cũng có thể sử dụng những mã Javascript phức tạp để tạo ra nội dung. Hầu hết những robots của bộ máy tìm kiếm không thực thi Javascript phức tạp vì vậy chúng không thể nào đọc được trang web của bạn.

    Nhìn chung, bạn muốn Google index những trang trong website. Hãy kiểm tra thật kỹ những mục trên, sử dụng một số công cụng đánh giá website để xem lại có lỗi nào trong website của mình hay không. Từ đó loại bỏ việc Google không để đánh chỉ mục một hay một vài trang web.
     
  8. caocap

    caocap Dự bị

    Bài viết:
    40
    Đã được thích:
    12
    Không phải là không index... có index nhưng chỉ index cái subdomain của bạn... Bạn vui lòng gõ bở Subdomain :
    Mã:
    dev thegioigame vn   
    Để index được tốt hơn thì bạn khai báo Robots như thế này
    Mã:
    User-agent: *
    Allow: /
    Disallow: /game-online/page/*
    Disallow: /game-mobile/page/*
    Allow: /game-online/
    Allow: /game-mobile/
    Sitemap: /sitemap_index . xml
    Disallow: / page /* [Tránh trùng lập title của chứng năng phân trang... cái này chặn nó đi tốt cho danh mục chính.]
    Trong url danh mục bạn thên thêm dấu [/] ở phía sau để xử lý url nhé...
    Nhớ bắt buộc phải xóa cái Sub dev bỏ nhé... không thì bạn sẽ trở thành spam đấy... Nếu không xóa thì không cho robot thu thập cái sub đó cũng được.

    Chúc bạn thành công !
     
  9. seonguyen

    seonguyen Dự bị

    Bài viết:
    20
    Đã được thích:
    5
    Cám ơn mọi người em đã xử lý được vấn đề này nhé. Hoàn toàn là do vấn đề trùng lặp nội dung thôi. Cám ơn mọi người đã giúp đỡ !
     
  10. vuquoctuan

    vuquoctuan Thành viên

    Bài viết:
    59
    Đã được thích:
    10
    - Bình thường mình không cần submit cũng index đều và trung bình một bài mới của mình 2 ngày là index rồi
    - Bác xem lại onpage của mình đã ổn chưa nhé.
    - xem lại file robot có bị chặn không.
    - Đừng nên lạm dụng submit index quá, hãy làm thế nào để robot nó vào thường xuyên và tự nó index chứ đừng dùng submit.
     

Chia sẻ trang này