Góc Kiến Thức

Duplicate Content là gì? 15 Nguyên nhân và khắc phục 2022

Duplicate content là một trong những lỗi mà các nhà quản trị website lo lắng. Theo thống kê gần đây, có 25-30% website có nội dung trùng lặp nhau. Nếu biết cách tránh và khắc phục lỗi duplicate content, trang web của bạn sẽ hữu ích hơn so với đối thủ cạnh tranh. Bài viết dưới đây SEODO sẽ giúp bạn hiểu rõ các vấn đề liên quan duplicate content là gì, nguyên nhân và cách khắc. Cùng tìm hiểu ngay nhé!

1. Duplicate Content là gì?

Duplicate content là lỗi trùng lặp nội dung khi người viết sử dụng lại nội dung gần giống hoặc copy hoàn toàn ở một trang web khác hoặc một web-page cùng website. Nội dung trùng lặp lớn có thể tác động tiêu cực đến thứ hạng của bạn trên công cụ tìm kiếm. Hiểu đơn giản, duplicate contenttrùng lặp nội dung từng chữ giống với nội dung đã xuất hiện trên một trang web khác. Bên cạnh đó, lỗi này cũng áp dụng cho các website có nội dung tương tự nhau.

>>>Đọc thêm: 10 tiêu chí & công cụ hỗ trợ Kiểm tra bài viết chuẩn SEO hàng đầu

duplicate content
Duplicate content là gì?

2. Duplicate Content ảnh hưởng gì đến SEO?

Google cố gắng lập chỉ mục và hiển thị các trang web chất lượng có nội dung riêng biệt. Do đó, nếu website mắc lỗi duplicate content sẽ ảnh hưởng rất lớn đến thứ hạng của website trên công cụ tìm kiếm, pha loãng backlink, tiêu hao ngân sách thu thập thông tin, nội dung cóp nhặt có thứ hạng cao hơn website chính.

2.1. Xuất hiện URL không mong muốn hoặc không thân thiện trong kết quả tìm kiếm

Khi một trang cùng có sẵn ở ba URL khác nhau:

  1. domain.com/page/
  2. domain.com/page/?utm_content=buffer&utm_medium=social
  3. domain.com/category/page/

Kết quả tìm kiếm vẫn sẽ hiển thị nhưng Google sẽ đánh giá trang web bị mắc lỗi duplicate content. Nếu xảy ra tình trạng một trang xuất hiện ở nhiều URL thì một URL không mong muốn khác có thể sẽ thay thế vị trí trang của bạn. Bởi người dùng có xu hướng không click vào một URL không thân thiện. Do đó, trang web của bạn cũng sẽ nhận được ít lượt organic traffic hơn.

duplicate content
Xuất hiện URL không mong muốn hoặc không thân thiện trong kết quả tìm kiếm

2.2. Pha loãng Backlink

Duplicate content xảy ra nếu một nội dung cùng xuất hiện tại nhiều URL. Mỗi URL có thể thu hút các backlinks, từ đó, dẫn đến sự phân chia “giá trị liên kết”. Để xử lý, Google tiến hành nhóm các URL thành một cụm. Sau đó, chọn một URL được cho là thân thiện nhất, đại diện cho cụm trong kết quả tìm kiếm và hợp nhất các thuộc tính URL trong cụm.

trùng lặp từ khóa
Pha loãng Backlink

2.3. Tiêu tốn ngân sách thu thập thông tin

Google truy tìm nội dung mới trên website thông qua quá trình thu thập thông tin. Nghĩa là Google đi theo các liên kết từ các trang hiện có đến các trang mới. Bên cạnh đó, bot Google cũng tiến hành thu thập lại dữ liệu ở các trang cũ theo thời gian để xem có điều gì thay đổi hay không. Lỗi duplicate content xảy ra gây ảnh hưởng đến tốc độ và tần suất thu thập dữ liệu ở trang mới của Google và quá trình cập nhật bài cũ của bạn.

2.4.. Nội dung cóp nhặt có thứ hạng cao hơn website của bạn

Một trang web khác đôi khi sẽ được phép xuất bản lại nội dung của bạn, đó được gọi là phân phối. Nhưng cũng có nhiều trường hợp nội dung được cắt và xuất bản lại mà không được cho phép. Hai trường hợp được nêu ra ở trên đều gây ra hiện tượng trùng lặp nội dung trên nhiều domain khác nhau. Rủi ro sẽ xảy ra nếu như nội dung cóp nhặt hoặc được xuất bản lại có thứ hạng cao hơn nội dung gốc.

3. Hình phạt của Google đối với Duplicate Content là gì?

Google không có hình phạt dành cho lỗi duplicate content. Tuy nhiên, trong một số trường hợp nếu Google phát hiện nội dung trùng lặp hiển thị với mục đích thao túng thứ hạng từ khóa và đánh lừa người dùng. Google sẽ thực hiện những điều chỉnh phù hợp trong việc lập chỉ mục và xếp hạng của các trang web liên quan. Vì thế, thứ hạng website có thể bị ảnh hưởng đáng kể hoặc trang web có khả năng bị xóa hoàn toàn khỏi chỉ mục của Google và trang web sẽ không còn xuất hiện trong kết quả tìm kiếm nữa.

Vậy ý định thao túng thứ hạng từ khóa và lừa dối người dùng được thể hiện qua các hành động:

  • Cố tình tạo ra nhiều trang, tên miền phụ hoặc tên miền có nhiều nội dung trùng lặp.
  • Xuất bản nhiều nội dung cóp nhặt
  • Xuất bản nội dung liên kết cóp nhặt từ Amazon hoặc các trang web khác nhưng không tạo thêm các giá trị bổ sung.
duplicate content
Hình phạt của Google đối với Duplicate Content là gì?

4. Nguyên nhân xảy ra Duplicate Content 

Lỗi duplicate content xảy ra do nhiều nguyên nhân khác nhau. Dưới đây là tổng hợp 15 lỗi trùng lặp nội dung và cách khắc phục lỗi này:

4.1. Faceted/filtered navigation

Faceted/filtered navigation được hiểu là điều hướng nhiều mặt, nơi người dùng có thể lọc và sắp xếp các mục trên trang. Tuy nhiên, việc thường xuyên kết hợp các bộ lọc này thường dẫn đến tình trạng nhiều nội dung trùng lặp hoặc gần trùng lặp nhau.

4.2. Tracking parameters

Những URL được tham số hóa cũng được sử dụng cho mục đích theo dõi. Bạn có thể sử dụng thông số UTM để theo dõi lượt truy cập từ chiến dịch bản tin trong Google Analytics:

Ví dụ: example.com/page?utm_source=newsletter

4.3. Session IDs

Session IDs sử dụng để lưu trữ thông tin về khách truy cập trang web của bạn. Họ thường nối một chuỗi dài vào URL như sau:

Ví dụ: example.com?sessionId=jow8082345hnfn9234

4.4. HTTPS vs. HTTP, và non-www vs. www

Đa phần các website đều có thể truy cập được ở một trong bốn biến thể được liệt kê dưới đây:

  • https: // www.example.com (HTTPS, www)
  • https: // example.com (HTTPS, không phải www)
  • http: // www. example.com (HTTP, www)
  • http: // example.com (HTTP, không phải www)

Hai biến thể đầu tiên là giao thức HTTPS, hai biến thể còn lại thuộc giao thức HTTP. Việc sử dụng phiên bản có www hay không có www là do bạn lựa chọn. Tuy vậy, nếu không định cấu hình chính xác hosting, website sẽ có thể truy cập được ở hai hoặc nhiều biến thể này. Điều đó không tốt và có thể dẫn đến các lỗi về duplicate content.

duplicate content
HTTPS vs. HTTP, và non-www vs. www

4.5. URL phân biệt chữ hoa và chữ thường

Bot Google phân biệt các URL chữ hoa chữ thường, có nghĩa là ba URL này đều khác nhau:

  • example.com/page
  • example.com/PAGE
  • example.com/pAgE

4.6. Dấu gạch chéo sau so với dấu gạch chéo không theo dấu

Google cũng phân biệt rõ các URL có dấu và không có dấu gạch chéo ở cuối. Điều đó có nghĩa là hai URL này là khác nhau trong mắt Google:

  • example.com/page/
  • example.com/page

Nếu nội dung của bạn có thể truy cập được ở cả hai URL, thì điều đó có thể dẫn đến các vấn đề về nội dung trùng lặp.

4.7. URL thân thiện với bản in

URL thân thiện với bản in nghĩa là phiên bản có nội dung giống như bản gốc nhưng khác URL

  • example.com/ print / page

4.8. URL thân thiện với di động

Những URL thân thiện với thiết bị di động giống với các URL thân thiện với máy in là việc trùng lặp các URL.

  • example.com/page
  • m.example.com/page
trùng lặp từ khóa
URL thân thiện với thiết bị di động

4.9. URL AMP

Các trang trên thiết bị di động được tăng tốc (AMP) được nhân bản.

  • example.com/page
  • example.com/ amp / trang

4.10. Tag và Categories Pages

Hầu hết CMS đều tạo ra các trang thẻ chuyên dụng khi bạn sử dụng thẻ.

Ví dụ: nếu bạn có một bài báo về whey protein hữu cơ và bạn sử dụng cả “bột protein” và “whey” làm thẻ, thì bạn sẽ có hai trang thẻ như sau:

  • https://www.calton
  • Nutrition.com/tag/whey/
  • https://www.calton Nutrition.com/tag/protein-powder/

Điều đó có thể gây ra lỗi nội dung trùng lặp.

4.11. URL hình ảnh đính kèm

Nhiều CMS’ tạo ra các web-page dành riêng cho các tệp đính kèm hình ảnh. Các trang này thường chỉ hiển thị hình ảnh và một số bản sao chép sẵn. Lỗi duplicate content xảy ra khi bản sao này giống nhau trên tất cả các trang được tạo tự động.

4.12. Nhận xét được phân trang

WordPress và các CMS khác cho phép nhận xét việc phân trang. Việc này gây ra vấn đề trùng lặp nội dung vì tạo ra nhiều phiên bản của các URL giống nhau một cách hiệu quả.

  • example.com/post/
  • example.com/post/comment-page‑2
  • example.com/post/comment-page‑3

4.13. Localization

Nếu bạn cung cấp nội dung tương tự cho những người ở những vị trí khác nhau nhưng nói cùng một ngôn ngữ thì có thể dẫn đến tình trạng nội dung trùng lặp.

duplicate content
Localization

4.14. Trang kết quả tìm kiếm

Rất nhiều trang web có hộp tìm kiếm. Việc sử dụng những thứ này thường đưa bạn đến một URL tìm kiếm được tham số hóa.

Ví dụ: example.com?q=search-term

4.15. Môi trường dàn dựng

Môi trường dàn dựng là một phiên bản trùng lặp hoặc gần trùng lặp trang web được sử dụng cho mục đích thử nghiệm. Khi Google lập chỉ mục, điều này sẽ dẫn đến vấn đề lỗi duplicate content.

5. Một số giải pháp khắc phục Duplicate content

Để khắc phục được lỗi Duplicate content có rất nhiều cách. Dưới đây là tổng hợp 6 giải pháp dễ dàng nhất mà bạn có thể thực hiện:

5.1. Dùng redirect 301

Để khắc phục lỗi trùng lặp nội dung, bạn có thể sử dụng redirect 301 (“RedirectPermanent”) trong tệp “.htaccess” của mình. Redirect 301 sẽ giúp chuyển hướng người dùng, công cụ tìm kiếm và các trình thu thập dữ liệu khác theo mong muốn. Nếu người dùng truy cập một URL bị trùng lặp nội dung, họ sẽ được điều hướng sang trang gốc hoặc một trang khác. Bạn có thể thực hiện chuyển đổi IIS thông qua bảng điều khiển quản trị hoặc trong Apache bằng tệp .htaccess.

duplicate content
Redirect 301

5.2. Xây dựng liên kết hợp lý

Để xây dựng liên kết hợp lý, bạn nên cố gắng giữ liên kết nội bộ nhất quán. Nên tránh các vấn đề như URL có dấu gạch chéo cuối link hay nội dung trùng ở các URL WWW, HTTP và HTTPS,…

5.3. Sử dụng Top-level Domain

Hãy sử dụng tên miền cao cấp Top Level Domain để nhận được phiên bản phù hợp nhất cho tài liệu, bài viết. Top Level Domain là phần mở rộng nằm sau dấu chấm cuối cùng.

Ví dụ: Sử dụng “https://domain.vn” chứa nội dung tập trung vào người dùng tại Việt Nam sẽ được Google ưu tiên hơn là “https://domain.com/vn”.

trùng lặp nội dung
Sử dụng Top-level Domain

5.4. Phân phối nội dung hợp lý cho từng nền tảng khác nhau

Google sẽ luôn hiển thị phiên bản được đánh giá là thân thiện nhất cho người dùng trong mỗi tìm kiếm nhất định. Để khắc phục lỗi duplicate content, bạn nên đảm bảo rằng trang web, bài copy nội dung sẽ gắn link trỏ về bài viết gốc. Ngoài ra, bạn cũng có thể yêu cầu người sử dụng nội dung của bạn sử dụng thẻ Meta Noindex để các công cụ tìm kiếm lập chỉ mục phiên bản cho nội dung của họ.

5.5. Tránh việc Google Index nội dung chưa hoàn thiện

Bạn nên đảm bảo tránh xuất bản các trang chưa có nội dung thực. Người dùng chắc chắn sẽ không thích các trang trống, không có nội dung. Do đó, nếu bạn cần tạo trang để giữ chỗ, hãy sử dụng thẻ Meta Noindex để chặn lập chỉ mục.

5.6. Giảm thiểu tối đa nội dung giống nhau

Trong trường hợp bạn có nhiều trang giống nhau thì nên xem xét mở rộng từng trang hoặc hợp nhất lại thành một.

6. Cách Check Duplicate Content trên website

Nếu bạn sao chép nội dung của người khác đăng lên website của mình hoặc họ lấy những nội dung của bạn đều được xem lỗi trùng lặp nội dung. Vậy, làm cách nào để có thể kiểm tra được lỗi duplicate content trên website. Dưới đây là ba cách được liệt kê:

6.1. Sử dụng Google để check Duplicate Content

Sử dụng Google để check duplicate content là cách nhanh chóng để kiểm tra xem liệu một trang có chứa nội dung trùng lặp hay không. Bạn tiến hành sao chép khoảng 10 từ đầu tiên của câu, để chúng vào dấu ngoặc kép. Tiếp đến, bỏ chúng lên Google để check duplicate content.

duplicate content
Sử dụng Google để check Duplicate Content

6.2. Các Tool miễn phí hỗ trợ Check Duplicate Content Online

Trước khi đăng bài viết, bạn nên kiểm tra nội dung của mình bằng các công cụ kiểm tra đạo văn. Dưới đây là các công cụ miễn phí mà bạn có thể dùng để Check Duplicate Content Online

duplicate content
Các Tool miễn phí hỗ trợ Check Duplicate Content Online

6.2.1. Copyscape

Sử dụng công cụ check trùng lặp nội dung Online Copyscape, bạn chỉ mất khoảng vài giây là đã có thể kiểm tra được nội dung có trùng lặp với những nội dung đã được tải lên hay không. Công cụ so sánh sẽ làm nổi bật nội dung trùng lặp đồng thời ghi rõ trùng lặp bao nhiêu phần trăm.

6.2.2. Plagspotter

Plagspotter là công cụ có thể xác định được các trang có nội dung trùng lặp trên website. Công cụ giúp xác định được website nào đã đánh cắp nội dung từ trang của bạn. Công cụ cũng cho phép tự động theo dõi các URL hàng tuần để xác định lỗi Duplicate Content.

6.2.3. Duplichecker

Công cụ Duplichecker kiểm tra nhanh chóng tính duy nhất của nội dung dự định đăng lên trang web. Mỗi ngày bạn có thể thực hiện tối đa 50 lần check/ngày.

6.2.4. Siteliner

Siteliner giúp bạn kiểm tra toàn bộ website của mình 1 lần/tháng để tìm lỗi Duplicate Content. Công cụ cũng có thể kiểm tra được các liên kết bị hỏng và xác định những trang nổi bật nhất đối với các công cụ tìm kiếm.

6.2.5. Smallseotools

Smallseotools có nhiều công cụ SEO, bao gồm cả công cụ kiểm tra đạo văn giúp bạn xác định được các đoạn nội dung giống hệt nhau.

Qua bài viết này, chắc hẳn các bạn đã hiểu rõ Duplicate content là gì, ảnh hưởng của lỗi trùng lặp đến SEO, nguyên nhân và cách khắc phục. Nếu bạn đang trong quá trình xây dựng và phát triển website hoặc bạn cần tìm hiểu thêm các kiến thức SEO chuyên sâu thì có thể ghé thăm website của SEODO để biết thêm nhiều thông tin bổ ích liên quan khác. Cảm ơn bạn đọc đã dành thời gian xem hết bài viết này!

Cùng tìm hiểu thêm những yếu tố liên quan về SEO Content qua những bài viết sau:

Đánh giá 5 sao

Viết một bình luận

Website này sử dụng Akismet để hạn chế spam. Tìm hiểu bình luận của bạn được duyệt như thế nào.