Góc Kiến Thức SEO

Duplicate Content là gì? 15 Nguyên nhân và khắc phục Trùng lặp nội dung

Duplicate content hay Trùng lặp nội dung là một trong những lỗi mà các nhà quản trị website lo lắng. Theo thống kê gần đây, có 25-30% website có nội dung trùng lặp nhau. Nếu biết cách tránh và khắc phục lỗi duplicate content, trang web của bạn sẽ hữu ích hơn so với đối thủ cạnh tranh. Bài viết dưới đây SEODO sẽ giúp bạn hiểu rõ các vấn đề liên quan duplicate content là gì, nguyên nhân và cách khắc. Cùng tìm hiểu ngay nhé!

1. Duplicate Content là gì?

Duplicate content hay Trùng lặp nội dung là những nội dung như văn bản, hình ảnh, video,… xuất hiện từ hai lần trở lên trên cùng một website, hay các website khác nhau. 

Nội dung trùng lặp lớn có thể tác động tiêu cực đến thứ hạng của bạn trên công cụ tìm kiếm. Hiểu đơn giản, duplicate contenttrùng lặp nội dung từng chữ giống với nội dung đã xuất hiện trên một trang web khác. Bên cạnh đó, lỗi này cũng áp dụng cho các website có nội dung tương tự với nhau.

>>>Đọc ngay: Trọn bộ cách viết content seo bứt phá x5 sức mạnh website

duplicate content
Duplicate content là gì?

2. Tại sao Duplicate content lại quan trọng?

2.1 Đối với công cụ tìm kiếm

Trùng lặp nội dung có thể gây ra  ba vấn đề chính cho các công cụ tìm kiếm:

  • Họ không biết nên bao gồm/loại trừ ( những) phiên bản nào khỏi chỉ mục của mình.
  • Họ không biết liệu có nên hướng các chỉ số liên kết như độ tin cậy, anchor text, link equity.. đến một trang hoặc tách nó ra giữa nhiều phiên bản
  • Họ không biết những phiên bản nào để xếp hạng cho kết quả truy vấn.

2.2 Đối với chủ trang web

Duplicate content có thể làm cho website của bạn bị giảm thứ hạng và mất lưu lượng truy cập. Những thiệt hại này thường bắt nguồn từ 2 vấn đề chính như sau:

  • Để cung cấp trải nghiệm tìm kiếm tốt nhất cho người dùng, các công cụ tìm kiếm sẽ hiếm khi hiển thị nhiều phiên bản của cùng một nội dung và do dó buộc phải chọn phiên bản nào có khả năng mang lại kết quả tốt, điều này làm loãng khả năng hiển thị của từng bản sao.
  • Giá trị liên kết (link equity) có thể bị pha loãng bởi các trang web khác cũng phải lựa chọn giữa các bản sao. Thay vì các inbound link trỏ đến một phần của nội dung, chúng liên kết đến nhiều phần và phân bổ giá trị liên kết giữa các bản sao. Inbound link là một yếu tố xếp hạng, điều này có thể ảnh hưởng đến khả năng hiển thị tìm kiếm của một phần nội dung.

3. Duplicate Content ảnh hưởng gì đến SEO?

Google cố gắng lập chỉ mục và hiển thị các trang web chất lượng có nội dung riêng biệt. Do đó, nếu website mắc lỗi duplicate content sẽ ảnh hưởng rất lớn đến thứ hạng của website trên công cụ tìm kiếm, pha loãng backlink, tiêu hao ngân sách thu thập thông tin, nội dung cóp nhặt có thứ hạng cao hơn website chính.

3.1. Xuất hiện URL không mong muốn hoặc không thân thiện trong kết quả tìm kiếm

Khi một trang cùng có sẵn ở 3 URL khác nhau:

  1. domain.com/page/
  2. domain.com/page/?utm_content=buffer&utm_medium=social
  3. domain.com/category/page/

Kết quả tìm kiếm vẫn sẽ hiển thị nhưng Google sẽ đánh giá trang web bị mắc lỗi duplicate content. Nếu xảy ra tình trạng một trang xuất hiện ở nhiều URL thì một URL không mong muốn khác có thể sẽ thay thế vị trí trang của bạn. Bởi người dùng có xu hướng không click vào một URL không thân thiện. Do đó, trang web của bạn cũng sẽ nhận được ít lượt organic traffic hơn.

duplicate content
Xuất hiện URL không mong muốn hoặc không thân thiện trong kết quả tìm kiếm

3.2. Pha loãng Backlink

Duplicate content xảy ra nếu một nội dung cùng xuất hiện tại nhiều URL. Mỗi URL có thể thu hút các backlink .Từ đó, dẫn đến sự phân chia “giá trị liên kết”. Để xử lý, Google tiến hành nhóm các URL thành một cụm. Sau đó, chọn một URL được cho là thân thiện nhất, đại diện cho cụm trong kết quả tìm kiếm và hợp nhất các thuộc tính URL trong cụm.

trùng lặp từ khóa
Pha loãng Backlink

3.3. Làm chậm tốc độ thu thập thông tin

Google truy tìm nội dung mới trên website thông qua quá trình thu thập thông tin. Nghĩa là Google đi theo các liên kết từ các trang hiện có đến các trang mới. Bên cạnh đó, bot Google cũng tiến hành thu thập lại dữ liệu ở các trang cũ theo thời gian để xem có điều gì thay đổi hay không. Lỗi duplicate content xảy ra gây ảnh hưởng đến tốc độ và tần suất thu thập dữ liệu ở trang mới của Google và quá trình cập nhật bài cũ của bạn.

3.4.. Nội dung cóp nhặt có thứ hạng cao hơn website của bạn

Một trang web khác đôi khi sẽ được phép xuất bản lại nội dung của bạn, đó được gọi là phân phối. Nhưng cũng có nhiều trường hợp nội dung được cắt và xuất bản lại mà không được cho phép. Hai trường hợp được nêu ra ở trên đều gây ra hiện tượng trùng lặp nội dung trên nhiều domain khác nhau. Rủi ro sẽ xảy ra nếu như nội dung cóp nhặt hoặc được xuất bản lại có thứ hạng cao hơn nội dung gốc.

>>> Xem thêm: Quy trình 8 bước lên Outline Content dễ dàng, hiệu quả 

4. Hình phạt của Google đối với Duplicate Content là gì?

Google không có hình phạt dành cho lỗi duplicate content. Tuy nhiên, trong một số trường hợp nếu Google phát hiện nội dung trùng lặp hiển thị với mục đích thao túng thứ hạng từ khóa và đánh lừa người dùng. Google sẽ thực hiện những điều chỉnh phù hợp trong việc lập chỉ mục và xếp hạng của các trang web liên quan. Vì thế, thứ hạng website có thể bị ảnh hưởng đáng kể hoặc trang web có khả năng bị xóa hoàn toàn khỏi chỉ mục của Google và trang web sẽ không còn xuất hiện trong kết quả tìm kiếm nữa.

Vậy ý định thao túng thứ hạng từ khóa và lừa dối người dùng được thể hiện qua các hành động:

  • Cố tình tạo ra nhiều trang, tên miền phụ hoặc tên miền có nhiều nội dung trùng lặp.
  • Xuất bản nhiều nội dung cóp nhặt
  • Xuất bản nội dung liên kết cóp nhặt từ Amazon hoặc các trang web khác nhưng không tạo thêm các giá trị bổ sung.
duplicate content
Hình phạt của Google đối với Duplicate Content là gì?

>>> Giảm thiểu ngay rủi ro làm SEO bằng cách thuê ngoài Dịch vụ SEO Website của SEODO

5. Nguyên nhân xảy ra Duplicate Content 

Lỗi duplicate content xảy ra do nhiều nguyên nhân khác nhau. Dưới đây là tổng hợp 15 lỗi trùng lặp nội dung và cách khắc phục lỗi này:

5.1. Nhận xét được phân trang

WordPress và các CMS khác cho phép nhận xét việc phân trang. Việc này gây ra vấn đề trùng lặp nội dung vì tạo ra nhiều phiên bản của các URL giống nhau một cách hiệu quả.

  • example.com/post/
  • example.com/post/comment-page‑2
  • example.com/post/comment-page‑3

5.2. URL đính kèm hình ảnh

Nhiều CMS tạo ra các web-page dành riêng cho các tệp đính kèm hình ảnh. Các trang này thường chỉ hiển thị hình ảnh và một số bản sao chép sẵn. Lỗi duplicate content xảy ra khi bản sao này giống nhau trên tất cả các trang được tạo tự động.

5.3. Tag và Categories Pages

Tag và Categories Pages là cách để phân loại nội dung trên một trang web, giúp người dùng dễ dàng tìm kiếm các bài viết có liên quan.

Hầu hết CMS ( Content Management System) đều tạo ra các trang thẻ chuyên dụng khi bạn sử dụng thẻ.

Ví dụ: nếu bạn có một bài báo về whey protein hữu cơ và bạn sử dụng cả “bột protein” và “whey” làm thẻ, thì bạn sẽ có hai trang thẻ như sau:

  • https://www.calton
  • Nutrition.com/tag/whey/
  • https://www.calton Nutrition.com/tag/protein-powder/

Điều đó có thể gây ra lỗi nội dung trùng lặp.

5.4. Faceted/filtered navigation

Faceted/filtered navigation được hiểu là điều hướng nhiều mặt, nơi người dùng có thể lọc và sắp xếp các mục trên trang. Loại điều hướng này thường được các trang thương mại điện tử sử dụng.

Nói đơn giản, nghĩa là người dùng sử dụng bộ lọc để tìm kiếm nhanh hơn. Tuy nhiên, việc thường xuyên kết hợp các bộ lọc này thường dẫn đến tình trạng nhiều nội dung trùng lặp hoặc gần trùng lặp nhau.

Loại điều hướng này thường có các tham số nối vào cuối URL, ảnh minh họa bên dưới:

Điều hướng nhiều mặt
Điều hướng nhiều mặt là gì

5.5. Tracking parameters

Tracking Parameters ( thông số theo dõi) là một đoạn mã xác định được thêm vào cuối URL. Sau đó, nó có thể được phân tích cú pháp bởi một chương trình bổ trợ của hệ thống để chia sẻ những thông tin có trong URL đó.

Có 3 loại thông số theo dõi: thông số theo dõi, thông số chuyển hướng và thông số bổ sung

Tracking Parameters
Tracking Parameters

5.6. Session IDs

Session IDs (ID phiên làm việc) là một chuỗi định danh duy nhất được tạo ra để định danh một phiên làm việc của người dùng trên một trang web hoặc ứng dụng web. Khi người dùng truy cập vào trang web hoặc ứng dụng web, một session ID được tạo ra và gắn liền với phiên làm việc của người dùng. 

Session ID thường được sử dụng để lưu trữ các thông tin phiên làm việc của người dùng, bao gồm trạng thái đăng nhập, giỏ hàng mua sắm và lịch sử hoạt động.

Ví dụ: example.com?sessionId=jow8082345hnfn9234

5.7. HTTPS vs. HTTP, và non-www vs. www

HTTP và HTTPS là hai giao thức truyền tải dữ liệu trên Internet. HTTP là giao thức truyền tải dữ liệu không bảo mật, trong khi HTTPS là giao thức truyền tải dữ liệu bảo mật.
Non -WWW và WWW là hai cách hiển thị tên miền của một trang web. Khi truy cập vào trang web bằng tên miền www thì trang web sẽ được chuyển hướng sang tên miền non – www và ngược lại.
Đa phần các website đều có thể truy cập được ở một trong bốn biến thể được liệt kê dưới đây:

  • https: // www.example.com (HTTPS, www)
  • https: // example.com (HTTPS, không phải www)
  • http: // www. example.com (HTTP, www)
  • http: // example.com (HTTP, không phải www)

Hai biến thể đầu tiên là giao thức HTTPS, hai biến thể còn lại thuộc giao thức HTTP. Việc sử dụng phiên bản có www hay không có www là do bạn lựa chọn. Tuy vậy, nếu không định cấu hình chính xác hosting, website sẽ có thể truy cập được ở hai hoặc nhiều biến thể này. Điều đó không tốt và có thể dẫn đến các lỗi về duplicate content, và điều bạn có thể làm để khắc phục vấn đề này chính là sử dụng thẻ canonical.

duplicate content
HTTPS vs. HTTP, và non-www vs. www

>>> Đọc ngay: URL Là Gì? Các Cách Tối Ưu URL Hàng Đầu Cho SEOER Mới Nhất

5.8. URL phân biệt chữ hoa và chữ thường

Bot Google phân biệt các URL chữ hoa chữ thường, có nghĩa là ba URL này đều khác nhau:

  • example.com/page
  • example.com/PAGE
  • example.com/pAgE

5.9. Dấu gạch chéo sau so với dấu gạch chéo không theo dấu

Google cũng phân biệt rõ các URL có dấu và không có dấu gạch chéo ở cuối. Điều đó có nghĩa là hai URL này là khác nhau trong mắt Google:

  • example.com/page/
  • example.com/page

Nếu nội dung của bạn có thể truy cập được ở cả hai URL, thì điều đó có thể dẫn đến các vấn đề về nội dung trùng lặp.

5.10. URL thân thiện với bản in

URL thân thiện với bản in nghĩa là phiên bản có nội dung giống như bản gốc nhưng khác URL

  • example.com/ print / page

5.11. URL thân thiện với di động

Những URL thân thiện với thiết bị di động giống với các URL thân thiện với máy in là việc trùng lặp các URL.

  • example.com/page
  • m.example.com/page
trùng lặp từ khóa
URL thân thiện với thiết bị di động

5.12. URL AMP

Các trang trên thiết bị di động được tăng tốc (AMP) được nhân bản.

  • example.com/page
  • example.com/ amp / trang

5.13. Localization

Nếu bạn cung cấp nội dung tương tự cho những người ở những vị trí khác nhau nhưng nói cùng một ngôn ngữ thì có thể dẫn đến tình trạng nội dung trùng lặp.

duplicate content
Localization

5.14. Trang kết quả tìm kiếm

Rất nhiều trang web có hộp tìm kiếm. Việc sử dụng những thứ này thường đưa bạn đến một URL tìm kiếm được tham số hóa.

Ví dụ: example.com?q=search-term

5.15. Môi trường dàn dựng

Môi trường dàn dựng là một phiên bản trùng lặp hoặc gần trùng lặp trang web được sử dụng cho mục đích thử nghiệm. Khi Google lập chỉ mục, điều này sẽ dẫn đến vấn đề lỗi duplicate content.

6. Một số giải pháp khắc phục Duplicate content

Để khắc phục được lỗi Duplicate content có rất nhiều cách. Dưới đây là tổng hợp 6 giải pháp dễ dàng nhất mà bạn có thể thực hiện:

6.1. Dùng redirect 301

Để khắc phục lỗi trùng lặp nội dung, bạn có thể sử dụng redirect 301 (“RedirectPermanent”) trong tệp “.htaccess” của mình. Redirect 301 sẽ giúp chuyển hướng người dùng, công cụ tìm kiếm và các trình thu thập dữ liệu khác theo mong muốn. Nếu người dùng truy cập một URL bị trùng lặp nội dung, họ sẽ được điều hướng sang trang gốc hoặc một trang khác. Bạn có thể thực hiện chuyển đổi IIS thông qua bảng điều khiển quản trị hoặc trong Apache bằng tệp htaccess.

duplicate content
Redirect 301

6.2. Xây dựng liên kết hợp lý

Để xây dựng liên kết hợp lý, bạn nên cố gắng giữ liên kết nội bộ nhất quán. Nên tránh các vấn đề như URL có dấu gạch chéo cuối link hay nội dung trùng ở các URL WWW, HTTP và HTTPS,…

6.3. Sử dụng Top-level Domain

Hãy sử dụng tên miền cao cấp Top Level Domain để nhận được phiên bản phù hợp nhất cho tài liệu, bài viết. Top Level Domain là phần mở rộng nằm sau dấu chấm cuối cùng.

Ví dụ: Sử dụng “https://domain.vn” chứa nội dung tập trung vào người dùng tại Việt Nam sẽ được Google ưu tiên hơn là “https://domain.com/vn”.

trùng lặp nội dung
Sử dụng Top-level Domain

6.4. Phân phối nội dung hợp lý cho từng nền tảng khác nhau

Google sẽ luôn hiển thị phiên bản được đánh giá là thân thiện nhất cho người dùng trong mỗi tìm kiếm nhất định. Để khắc phục lỗi duplicate content, bạn nên đảm bảo rằng trang web, bài copy nội dung sẽ gắn link trỏ về bài viết gốc. Ngoài ra, bạn cũng có thể yêu cầu người sử dụng nội dung của bạn sử dụng thẻ Meta Noindex để các công cụ tìm kiếm lập chỉ mục phiên bản cho nội dung của họ.

6.5. Tránh việc Google Index nội dung chưa hoàn thiện

Bạn nên đảm bảo tránh xuất bản các trang chưa có nội dung thực. Người dùng chắc chắn sẽ không thích các trang trống, không có nội dung. Do đó, nếu bạn cần tạo trang để giữ chỗ, hãy sử dụng thẻ Meta Noindex để chặn lập chỉ mục.

6.6. Giảm thiểu tối đa nội dung giống nhau

Trong trường hợp bạn có nhiều trang giống nhau thì nên xem xét mở rộng từng trang hoặc hợp nhất lại thành một.

7. Cách Check Duplicate Content trên website

Nếu bạn sao chép nội dung của người khác đăng lên website của mình hoặc họ lấy những nội dung của bạn đều được xem lỗi trùng lặp nội dung. Vậy, làm cách nào để có thể kiểm tra được lỗi duplicate content trên website. Dưới đây là ba cách được liệt kê:

7.1. Sử dụng Google để check Duplicate Content

Sử dụng Google để check duplicate content là cách nhanh chóng để kiểm tra xem liệu một trang có chứa nội dung trùng lặp hay không. Bạn tiến hành sao chép khoảng 10 từ đầu tiên của câu, để chúng vào dấu ngoặc kép. Tiếp đến, bỏ chúng lên Google để check duplicate content.

duplicate content
Sử dụng Google để check Duplicate Content

7.2. Các Tool miễn phí hỗ trợ Check Duplicate Content Online

Trước khi đăng bài viết, bạn nên kiểm tra nội dung của mình bằng các công cụ kiểm tra đạo văn. Dưới đây là các công cụ miễn phí mà bạn có thể dùng để Check Duplicate Content Online

duplicate content
Các Tool miễn phí hỗ trợ Check Duplicate Content Online

7.2.1. Copyscape

Sử dụng công cụ check trùng lặp nội dung Online Copyscape, bạn chỉ mất khoảng vài giây là đã có thể kiểm tra được nội dung có trùng lặp với những nội dung đã được tải lên hay không. Công cụ so sánh sẽ làm nổi bật nội dung trùng lặp đồng thời ghi rõ trùng lặp bao nhiêu phần trăm.

7.2.2. Plagspotter

Plagspotter là công cụ có thể xác định được các trang có nội dung trùng lặp trên website. Công cụ giúp xác định được website nào đã đánh cắp nội dung từ trang của bạn. Công cụ cũng cho phép tự động theo dõi các URL hàng tuần để xác định lỗi Duplicate Content.

7.2.3. Duplichecker

Công cụ Duplichecker kiểm tra nhanh chóng tính duy nhất của nội dung dự định đăng lên trang web. Mỗi ngày bạn có thể thực hiện tối đa 50 lần check/ngày.

7.2.4. Siteliner

Siteliner giúp bạn kiểm tra toàn bộ website của mình 1 lần/tháng để tìm lỗi Duplicate Content. Công cụ cũng có thể kiểm tra được các liên kết bị hỏng và xác định những trang nổi bật nhất đối với các công cụ tìm kiếm.

7.2.5. Smallseotools

Smallseotools có nhiều công cụ SEO, bao gồm cả công cụ kiểm tra đạo văn giúp bạn xác định được các đoạn nội dung giống hệt nhau.

Qua bài viết này, chắc hẳn các bạn đã hiểu rõ Duplicate content là gì, ảnh hưởng của lỗi trùng lặp đến SEO, nguyên nhân và cách khắc phục. Nếu bạn đang trong quá trình xây dựng và phát triển website hoặc bạn cần tìm hiểu thêm các kiến thức SEO chuyên sâu thì có thể ghé thăm website của SEODO để biết thêm nhiều thông tin bổ ích liên quan khác. Cảm ơn bạn đọc đã dành thời gian xem hết bài viết này!

Cùng tìm hiểu thêm những yếu tố liên quan về SEO Content qua những bài viết sau:

Câu hỏi thường gặp:

Duplicate Content là gì?
Duplicate content (Trùng lặp nội dung) là những nội dung gồm văn bản, hình ảnh, video,… xuất hiện từ hai lần trở lên trên cùng một trang web, hay các web khác nhau.

15 nguyên nhân dẫn đến Duplicate Content phổ biến?

1. Faceted/filtered navigation

2. Tracking parameters

3. Session IDs

4. HTTPS vs. HTTP, và non-www vs. www

5. URL phân biệt chữ hoa và chữ thường

6. Dấu gạch chéo sau so với dấu gạch chéo không theo dấu

7. URL thân thiện với bản in

8. URL thân thiện với di động

9. URL AMP

10. Tag và Categories Pages

11. URL hình ảnh đính kèm

12. Nhận xét được phân trang

13. Localization

14. Trang kết quả tìm kiếm

15. Môi trường dàn dựng

5/5 - (1 bình chọn)

Viết một bình luận

Website này sử dụng Akismet để hạn chế spam. Tìm hiểu bình luận của bạn được duyệt như thế nào.

BÀI VIẾT CÓ LIÊN QUAN