Nội dung trùng lặp là gì? Cách kiểm tra và khắc phục hiệu quả

Nội dung trùng lặp, hay còn gọi là duplicate content, đang trở thành một vấn đề lớn đối với SEO. Điều này có thể dẫn đến hậu quả xấu với việc Google áp dụng các biện pháp trừng phạt. Nhiều chủ sở hữu trang web cảm thấy lo lắng vì nguy cơ này. Vì vậy, việc tìm hiểu cách ngăn chặn và khắc phục nội dung trùng lặp trở nên cực kỳ quan trọng. Hãy cùng Hapodigital tìm hiểu về nội dung trùng lặp, các cách để kiểm tra và những phương pháp khắc phục trong bài viết dưới đây.

Khái niệm nội dung trùng lặp?

Nội dung trùng lặp (Duplicate Content) là sự tái sử dụng hoặc xuất hiện nhiều lần của cùng một nội dung giống nhau hoặc rất tương tự trên nhiều nền tảng trực tuyến. Vấn đề này có thể xảy ra trên cùng một trang web hoặc trên các trang web khác nhau.

Ví dụ, nếu tôi sao chép và đăng lại bài viết này trên nhiều trang web khác nhau, thì hành động đó sẽ tạo ra nội dung trùng lặp.

Nội dung trùng lặp
Nội dung trùng lặp

Ảnh hưởng của SEO khi trùng lặp nội dung 

Thứ hạng từ khóa giảm 

  • Trùng lặp nội dung gây ảnh hưởng rất xấu đến quá trình làm SEO, nếu website của bạn bị Google phát hiện có nội dung trùng lặp thì Google sẽ tiến hành xử phạt bạn rất nặng, trang web của bạn sẽ không còn được hiện diện lên trang kết quả tìm kiếm của Google, 
  • Sau đó Google sẽ thiết lập lại chỉ mục website của bạn và từ đó bạn có thể từ trang kết quả đầu tiên đến trang thứ 10 hoặc thậm chí nó có thể đưa website của bạn vào bộ lọc Google Sandbox và rất khó có cơ hội xếp hạng cao trở lại như lúc đầu

Loại bỏ Index trang

Một điều bạn cần biết đó là Google sẽ công nhận những trang web đầu tiên được Google Index là trang chứa nội dung gốc, chính vì thế nếu website của bạn chứa các nội dung trùng lặp với nội dung của các website khác đã được Google Index trước đó thì rất có thể trang web của bạn sẽ không được Index trang.

Pha loãng giá trị liên kết 

  • Duplicate content xảy ra khi một nội dung xuất hiện ở nhiều URL khác nhau. Và mỗi URL có thể nhận backlink, tạo ra sự phân chia giá trị liên kết. 
  • Google xử lý vấn đề này bằng cách nhóm các URL thành một cụm, sau đó chọn một URL tốt nhất đại diện cho cụm trong kết quả tìm kiếm và hợp nhất các thuộc tính URL trong cụm đó.

Xem thêm: Cách Tối ưu content  để hiểu và tối ưu trùng lặp hiểu quả 

Ảnh hưởng của SEO khi trùng lặp nội dung 

Nguyên nhân phổ biến của nội dung trùng lặp

Không chỉ có nguyên nhân duy nhất của nội dung trùng lặp mà nó có rất nhiều.

Trang Điều hướng và bộ lọc

Bộ lọc là nơi người dùng có thể lọc và sắp xếp các mục trên trang. Các trang web thương mại điện tử sử dụng nó rất nhiều.

Loại điều hướng này nối các tham số vào cuối URL.

Do thường có nhiều kết hợp các bộ lọc này, điều hướng theo mặt thường dẫn đến nhiều nội dung trùng lặp hoặc gần trùng lặp.
Hãy xem hai trang này, ví dụ:

Các URL là duy nhất, nhưng nội dung gần như giống hệt nhau.

Thêm vào đó, thứ tự của các tham số thường không quan trọng. Ví dụ: cùng một trang có thể truy cập được ở cả hai URL này:

Cách giải quyết: Điều hướng là vấn đề phức tạp. Nếu bạn nghi ngờ đây là nguyên nhân của các vấn đề nội dung trùng lặp của mình, chỉ cần đọc nó.

Theo dõi thông số

URL tham số cũng được sử dụng cho mục đích theo dõi. Ví dụ: bạn có thể sử dụng các tham số UTM để theo dõi các lượt truy cập từ một chiến dịch bản tin trong Google Analytics:

Ví dụ: example.com/page?utm_source=newsletter

Cách giải quyết: Canonical các URL được tham số hóa của bạn thành các phiên bản thân thiện với SEO mà không cần theo dõi các tham số.

XEM THÊM:  Backlink Dofollow - Nofollow là gì? Nên sử dụng Dofollow hay Nofollow?

ID phiên

ID phiên lưu trữ thông tin về khách truy cập của bạn. Họ thường nối một chuỗi dài vào URL như vậy:

Ví dụ: example.com?sessionId=jow8082345hnfn923

Cách giải quyết: Canonical các URL thành các phiên bản thân thiện với SEO.

HTTPS so với HTTP và không phải www so với www

Hầu hết các trang web có thể truy cập tại một trong bốn biến thể sau:

  • https://www.example.com (HTTPS, www)
  • https://example.com (HTTPS, không phải www)
  • http://www.example.com (HTTP, www)
  • http://example.com (HTTP, không phải www)

Nếu bạn sử dụng HTTPS, nó sẽ là một trong hai cái đầu tiên. Cho dù đó là phiên bản www hay không www là lựa chọn của bạn.

HTTPS so với HTTP và không phải www so với www

Tuy nhiên, nếu bạn không cấu hình chính xác máy chủ của mình, trang web của bạn sẽ có thể truy cập được ở hai hoặc nhiều biến thể này. Điều đó không tốt và có thể dẫn đến các vấn đề trùng lặp nội dung.

Cách giải quyết: Sử dụng redirects để đảm bảo rằng trang web của bạn chỉ có thể truy cập tại một địa điểm.

URL phân biệt chữ hoa chữ thường

Google thấy URL là phân biệt chữ hoa chữ thường.

Điều đó có nghĩa là ba URL này đều khác nhau:

  • example.com/page
  • example.com/PAGE
  • example.com/pAgE

Cách giải quyết: Hãy nhất quán với các liên kết nội bộ (nghĩa là, don don liên kết nội bộ với nhiều phiên bản URL). Nếu điều đó không giải quyết được mọi thứ, bạn luôn có thể chuẩn hóa hoặc chuyển hướng.

Dấu gạch chéo so với không dấu gạch chéo

Google coi các URL có và không có dấu gạch chéo là duy nhất. Điều đó có nghĩa là hai URL này là duy nhất trong mắt Google Google:

  • example.com/page/
  • example.com/page

Nếu nội dung của bạn có thể truy cập được ở cả hai URL, thì điều đó có thể dẫn đến các vấn đề trùng lặp nội dung.

Để kiểm tra xem đây có phải là sự cố hay không, hãy thử tải một trang có và không có dấu gạch chéo. Lý tưởng nhất, chỉ có một phiên bản sẽ tải. Cái khác sẽ chuyển hướng.

Ví dụ: nếu bạn cố tải bài đăng này mà không có dấu gạch chéo, nó sẽ chuyển hướng đến URL bằng dấu gạch chéo.

Google tuyên bố rằng hành vi này là lý tưởng.

Nếu chỉ có một phiên bản có thể được trả lại (tức là, các phiên bản khác chuyển hướng đến nó), đó là điều tuyệt vời! Hành vi này có lợi vì nó làm giảm nội dung trùng lặp.

Cách giải quyết: Chuyển hướng phiên bản không mong muốn (ví dụ: không có dấu gạch chéo) sang phiên bản mong muốn (ví dụ: với dấu gạch chéo). Bạn cũng nên đảm bảo duy trì sự phù hợp với liên kết nội bộ. Đôi khi không liên kết đến các phiên bản có dấu gạch chéo và không có lần khác. Chọn một và gắn bó với nó.

URL thân thiện với xuất bản

Các phiên bản in thân thiện có cùng nội dung với bản gốc. Nó chỉ có URL khác nhau.

  • example.com/page
  • example.com/print/page

Cách giải quyết: Canonical phiên bản thân thiện với bản xuất bản

URL thân thiện với xuất bản

URL thân thiện với thiết bị di động

Các URL thân thiện với thiết bị di động, như các URL thân thiện với in ấn, là các bản sao.

  • example.com/page
  • m.example.com/page

Cách giải quyết: Canonical phiên bản thân thiện với thiết bị di động về bản gốc. Sử dụng rel = “alternate” để nói với Google rằng URL thân thiện với thiết bị di động là phiên bản thay thế của nội dung trên máy tính để bàn.

Đề nghị đọc: Chú thích cho URL máy tính để bàn và thiết bị di động

URL AMP

Trang di động tăng tốc (AMP) là bản sao.

  • example.com/page
  • example.com/amp/page

Cách giải quyết: Canonical phiên bản AMP thành phiên bản không AMP. Sử dụng rel = “amphtml” để nói với Google rằng URL AMP là phiên bản thay thế của nội dung không phải AMP.

Nếu bạn chỉ có nội dung AMP, hãy sử dụng thẻ chính quy tự tham khảo.

Thẻ và trang danh mục

Hầu hết các CMS CMS tạo các trang thẻ chuyên dụng khi bạn sử dụng thẻ.

Ví dụ: nếu bạn có một bài viết về kính ốp bếp và bạn sử dụng cả hai loại thẻ kính ốp bếp và kính màu ốp bếp, thì bạn sẽ kết thúc với hai trang thẻ như sau:

  • example.com/tag/kinh-op-bep/
  • example.com/tag/kinh-mau-op-bep/

Điều đó không luôn luôn gây ra nội dung trùng lặp, nhưng nó có thể.

Đó là trường hợp mà ở đây vì ở đó chỉ có một trang trên trang web có hai thẻ đó, vì vậy mỗi trang thẻ giống hệt nhau.

Cách giải quyết: 

  • Không sử dụng thẻ. Hầu hết thời gian, dù sao họ cũng có ít hoặc không có giá trị.
  • Noindex trang thẻ của bạn. Điều này không giải quyết vấn đề thu thập ngân sách, vì Google vẫn sẽ lãng phí thời gian để thu thập dữ liệu các trang này
XEM THÊM:  Redirect 301 là gì? 5 lỗi Redirect bạn cần đặc biệt lưu ý

Lưu ý rằng các trang danh mục có thể gây ra vấn đề tương tự cho các trang thẻ.

Giải quyết vấn đề này bằng cách sử dụng số lượng danh mục hợp lý trên trang web của bạn hoặc thậm chí noindex các trang danh mục của bạn.

URL hình ảnh đính kèm

Nhiều CMS tạo các trang chuyên dụng để đính kèm hình ảnh. Các trang này thường không hiển thị gì ngoài hình ảnh và một số bản sao soạn sẵn.

Vì bản sao này giống nhau trên tất cả các trang được tạo tự động, dẫn đến nội dung trùng lặp.

Cách giải quyết: Vô hiệu hóa các trang dành riêng cho hình ảnh trong CMS của bạn. Trong WordPress, bạn có thể làm điều này bằng cách sử dụng một plugin như Yoast.

Nhận xét

WordPress và CMS khác cho phép bình luận phân trang. Điều này gây ra nội dung trùng lặp vì nó tạo hiệu quả nhiều phiên bản của cùng một URL.

  • example.com/post/
  • example.com/post/comment-page‑2
  • example.com/post/comment-page‑3

Cách giải quyết: Tắt phân trang bình luận hoặc noindex các trang được phân trang của bạn bằng cách sử dụng một plugin như Yoast.

Location hóa

Nếu bạn phục vụ nội dung tương tự với những người ở các địa phương khác nhau có cùng ngôn ngữ thì điều đó có thể gây ra nội dung trùng lặp.

Ví dụ: bạn có thể có các phiên bản khác nhau của trang web của mình cho những người ở Hoa Kỳ, Vương quốc Anh và Úc. Vì có thể chỉ có sự khác biệt nhỏ giữa nội dung được phân phát cho từng địa phương (ví dụ: giá tính bằng đô la so với bảng Anh), các phiên bản sẽ gần trùng lặp.

Cách gải quyết: Sử dụng thẻ hreflang để nói với các công cụ tìm kiếm về mối quan hệ giữa các biến thể.

Trang kết quả tìm kiếm

Rất nhiều trang web có hộp tìm kiếm. Sử dụng chúng thường đưa bạn đến một URL tìm kiếm được tham số hóa.

Ví dụ: example.com?q=search-term

Matt Cut, cựu Giám đốc của Googlespam, Matt Cutts, tuyên bố rằng:

Typically, web search results don’t add value to users, and since our core goal is to provide the best search results possible, we generally exclude search results from our web search index. (Not all URLs that contain things like “/results” or “/search” are search results, of course.) 
Cách giải quyết: Sử dụng thẻ meta rô bốt để xóa các trang tìm kiếm khỏi chỉ mục Google, hoặc chặn quyền truy cập vào các trang kết quả tìm kiếm trong tệp robots.txt. Không liên kết nội bộ với các trang kết quả tìm kiếm.

Môi trường dàn dựng

Môi trường dàn dựng là phiên bản trùng lặp hoặc gần trùng lặp của trang web của bạn được sử dụng cho mục đích thử nghiệm.

Ví dụ, hãy tưởng tượng rằng bạn muốn cài đặt một plugin mới hoặc thay đổi một số mã trên trang web của bạn. Bạn có thể không muốn đẩy thẳng đến một trang web trực tiếp với hàng trăm ngàn khách truy cập hàng ngày. Nguy cơ thảm họa là quá cao. Giải pháp là kiểm tra những thay đổi trong môi trường dàn dựng trước.

Môi trường dàn dựng trở thành một vấn đề SEO khi Google lập chỉ mục chúng vì nó dẫn đến nội dung trùng lặp.

Cách giải quyết: Bảo vệ môi trường dàn dựng của bạn bằng cách sử dụng xác thực HTTP, danh sách trắng IP hoặc truy cập VPN. Nếu nó đã được lập chỉ mục, hãy sử dụng lệnh robot noindex để xóa nó.

Cách kiểm tra nội dung trùng lặp trên trang web của bạn

Kiểm tra bằng công cụ Ahrefs

Đi đến  Ahrefs Site Audit và bắt đầu thu thập thông tin.

Sau khi hoàn thành, hãy đến báo cáo chất lượng nội dung.

Tìm kiếm các cụm trùng lặp và gần trùng lặp mà không có kinh điển. Chúng được tô màu cam.

Nhấp vào bất kỳ cụm nào để xem các trang bị ảnh hưởng.

Điều tra lý do cho nội dung trùng lặp, sau đó thực hiện hành động thích hợp.

Lưu ý rằng những chiến thắng này luôn luôn là vấn đề cần khắc phục, đặc biệt là trong trường hợp trùng lặp gần.

KHÔNG PHẢI LÀ NGƯỜI DÙNG AHREFS?
Tìm kiếm các cảnh báo liên quan đến nội dung trùng lặp này trong Google Search Console:

  • Trùng lặp mà không có tiêu chuẩn do người dùng chọn
  • Trùng lặp, Google chọn kinh điển khác với người dùng
  • Trùng lặp, URL đã gửi không được chọn là hợp quy

Kiểm tra bằng Google Webmaster Tools

Để xem cách Google xử lý một URL cụ thể, hãy sử dụng công cụ Kiểm tra URL.

Để check trùng lặp nội dung trong thẻ tiêu đề, mô tả meta và H1 trong báo cáo thẻ HTML.

Bản sao xấu là những gì bạn đang tìm kiếm. Đây là những trang có thẻ meta trùng lặp nhưng khác nhau.

Chọn những mục này bằng cách nhấp vào các bản sao xấu của Bad Bad chuyển đổi theo thẻ & nội dung HTML.

XEM THÊM:  13 cách để Google index trang web, bài viết nhanh nhất 2024

Nhấp vào bất kỳ thanh màu vàng để xem các trang bị ảnh hưởng.

Các trang có tiêu đề trùng lặp, mô tả meta hoặc H1 [thường rất giống nhau.

Google tuyên bố rằng bạn nên giảm thiểu nội dung tương tự như thế này:

Nếu bạn có nhiều trang tương tự nhau, hãy xem xét mở rộng từng trang hoặc hợp nhất các trang thành một.
Tuy nhiên, một số lượng nhỏ các trang tương tự dường như không phải là vấn đề.

Kiểm tra bằng Screamfrog

  • Để tiến hành kiểm tra nội dung trùng lặp trên Screamfrog, đầu tiên bạn hãy nhập URL của trang web bạn muốn kiểm tra vào thanh tìm kiếm. Tiếp đó chọn “Start” để bắt đầu quá trình quét.
  • Khi quá trình quét hoàn tất, di chuyển đến phần “Content” bằng cách nhấp vào mục này trong thanh bên trái của giao diện. Sau đó, trong phần “Content,” bạn sẽ thấy nhiều mục, bao gồm “Duplicate.”
  • Nhấp vào “Duplicate” để xem danh sách các URL hoặc nội dung bị trùng lặp trên trang web. Trong danh sách “Duplicate,” bạn có thể xem các URL hoặc nội dung trùng lặp mà Screaming Frog đã phát hiện.
  • Sau khi xác định các trường hợp cần xử lý, bạn có thể thực hiện các biện pháp sửa lỗi, như loại bỏ nội dung trùng lặp hoặc thực hiện các chỉnh sửa cần thiết trên trang web của bạn.

Cách kiểm tra nội dung trùng lặp bằng Screamfrog

Cách kiểm tra nội dung trùng lặp bằng Screamfrog

Xem thêm: cách viết bài viết chuẩn seo có thể giúp ích cho bạn trong quá trình tối ưu content 

Cách khắc phục nội dung trùng lặp trên website

Sử dụng chuyển hướng 301

  • Để khắc phục vấn đề nội dung trùng lặp, bạn có thể áp dụng redirect 301 (Redirect Permanent) trong tệp “.htaccess” của trang web của bạn. Redirect 301 giúp chuyển hướng người dùng và các công cụ tìm kiếm đến các URL mong muốn. 
  • Khi người dùng truy cập vào một URL có nội dung trùng lặp, họ sẽ tự động được chuyển hướng đến trang gốc hoặc trang khác. Bạn có thể thực hiện việc thay đổi IIS thông qua bảng điều khiển quản trị hoặc áp dụng nó trong Apache thông qua tệp htaccess.

Sử dụng Rel=”canonical”

  • Một phương pháp khác để giải quyết vấn đề nội dung trùng lặp là sử dụng thuộc tính rel=”canonical”.
  • Khi bạn thêm thẻ META với thuộc tính rel=”canonical” vào trang web có nội dung gốc, bạn đang thông báo cho các công cụ tìm kiếm rằng đó chỉ là một bản sao. 
  • Điều này giúp chúng áp dụng tất cả liên kết, thông tin về nội dung và “sức mạnh xếp hạng” mà họ áp dụng cho trang này, tự động đề xuất cho trang chính chứa nội dung gốc.

Sử dụng thẻ Meta Robots

  • Một loại thẻ meta có thể hữu ích đối với xử lý nội dung trùng lặp là thẻ meta robots, đặc biệt khi sử dụng với giá trị “noindex, follow.” Thường được gọi là Meta Noindex,Follow và kỹ thuật gọi là content=”noindex, follow”, thẻ meta robots này có thể được thêm vào phần đầu của mã HTML trên từng trang cụ thể mà bạn muốn loại trừ khỏi việc được lập chỉ mục bởi các công cụ tìm kiếm.
  • Sử dụng thẻ Meta Robots với các giá trị “noindex, nofollow” sẽ đặc biệt hữu ích trong việc ngăn chặn các Bot của Google từ việc lập chỉ mục trang vào một danh sách nhất định mà không theo dõi các liên kết trùng lặp đó trong nội dung xếp hạng.

Sử dung thẻ meta robots

Sử dụng thẻ Meta Robots đặc biệt hữu ích trong việc ngăn chặn các Bot của Google

Sử dụng phương pháp tránh trùng lặp khác

Ngoài việc sử dụng các công cụ kiểm tra trùng lặp nội dung trên trang web của bạn, bạn có thể ngăn chặn vấn đề Duplicate Content bằng cách:

  • Tạo nội dung mới cho website của bạn.
  • Luôn kiểm tra nội dung để ngăn chặn câu văn trùng lặp với các trang web khác bằng cách check đạo văn.
  • Thường xuyên kiểm tra xem nội dung của bạn có bị sao chép hay không và xử lý nó.

Để tạo được nội dung mới mẻ hấp dẫn tránh trùng lặp bạn có thể tham khảo qua bảng giá dịch vụ content của chúng tôi. Đảm bảo sẽ mang đến cho bạn những bài content chất lượng nhất. 

Trong việc viết và trình bày nội dung, việc tránh trùng lặp nội dung là một yếu tố quan trọng để bảo đảm tính mới mẻ và sự hấp dẫn của tác phẩm. Để tránh trùng lặp, bạn cần phải chú ý đến cách bạn sắp xếp và trình bày ý tưởng, sử dụng từ ngữ và cụm từ đa dạng, cũng như tạo sự liên kết logic giữa các phần khác nhau của tác phẩm điều này giúp tạo ra nội dung sáng tạo, phong cách riêng, và tạo ấn tượng tích cực với đối tượng đọc của bạn.

Bài viết liên quan: Tìm hiểu search intent là gì

5/5 - (1 bình chọn)

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

ƯU ĐÃI DỊCH VỤ backlink 4 400x300