Nỗi lo lắng của giới webmaster thường xuyên đó chính là vấn đề
duplicated content trên chính site của mình. Chúng ta đều biết rằng một website không thể tránh được việc
trùng lắp nội dung do URL khác nhau mang lại (ví dụ trang tìm kiếm và trang sản phẩm đều trả về thông tin chi tiết của sản phẩm nhưng URL có thể sẽ khác nhau).
Giờ đây, nỗi lo đó đã được giải tỏa khi Google phát triển một định dạng cho phép chỉ định phiên bản nào là
phiên bản gốc của một trang web. Định dạng mới này cho phép bạn có thể sử dụng nhiều URL cho cùng một nội dung mà không phải quá lo lắng về vấn đề
duplicated content trên nội dung site mình nữa.
Hãy lướt qua một ví dụ được Google trình bày trên website của mình:

Đây là một trang bán cá với nhiều URL khác nhau cùng trỏ về một nội dung. Ở đây chúng ta có 3 URL cùng trỏ về 1 trang bán cá Thụy Điển.
Tuy nhiên, người dùng (và cả Google Bot) cũng ít khi truy cập website thông qua phiên bản nội dung chính thức (example.com/product.php?item=swedish-fish)

mà thường thông qua một số con đường khác như
đi qua Category (example.com/product.php?item=swedish-fish&category=gummy-candy)

hoặc qua công cụ tìm kiếm, một tham chiếu Session ID… (example.com/product.php?item=swedish-fish&trackingid=1234&sessionid=5678)

vấn đề này thường gặp phải ở các diễn đàn sử dụng phpBB do phpBB sử dụng session ID
Rõ ràng ở đây có sự trùng lắp nội dung và bình thường chúng ta đã
mắc lỗi duplicated content.
Bây giờ, chúng ta không phải lo lắng về vấn đề này nhiều nữa bởi Google đã cho ra mắt một định dạng mới
rel="canonical" . Định dạng mới này cho phép bạn xác định đâu là phiên bản gốc của bài viết và các URL còn lại sẽ là bản sao của phiên bản gốc này. Quá tuyệt phải không, chúng ta sẽ không phải quá lo lắng nhiều về vấn đề duplicated content nữa rồi….
Để sử dụng
rel="canonical", bạn cần thêm nó vào thẻ <link> với URL chính (phiên bản gốc) như sau:
Đoạn code trên được đặt trong thẻ
<header> của các nội dung trùng lắp. Và như vậy,
Google Bot sẽ hiểu rằng trang web hiện tại mà nó đang duyệt là một phiên bản sao chép của phiên bản gốc. Các kết quả của
PageRank,
backlink… của các trang sao chép sẽ được cập nhật cho phiên bản gốc mà không mất mát, sứt mẻ miếng nào
Và một điều đặc biệt hơn nữa là không chỉ có Google hỗ trợ định dạng này mà cả
Ask.com,
Yahoo! Và
Microsoft Live Search cũng hỗ trợ. Quá tuyệt vời phải không các
webmaster
Dưới đây là một số câu hỏi và thắc mắc khi sử dụngrel="canonical” là bắt buộc hay chỉ là một gợi ý sử dụng ?Chỉ là một gợi ý, nó không có tính chất bắt buộc nhưng sẽ tốt hơn nếu bạn sử dụng nó.
Tôi có thể sử dụng đường dẫn tương đối?Đường dẫn tương đối được cho phép. Ngoài ra bạn còn có thể sử dụng thẻ <base>, đường dẫn tương đối sẽ được xác định theo thẻ <base>.
Nội dung giữa trang gốc và trang phát sinh có thể khác nhau đôi chút không ?Có thể ! Google nhận ra rằng nội dung có thể được cập nhật và bổ sung theo thời gian, hoặc do đặc thù của trang phát sinh. Do đó, Google đã tính đến chuyện này.
Điều gì xảy ra nếu trang gốc hiển thị lỗi 404.Google sẽ tiếp tục index, không sao cả! Và nó sẽ tự tìm lấy trang gốc (nếu có). Tuy nhiên, Google khuyến khích nên xác định 1 trang gốc rõ ràng.
Nếu trang gốc chưa được index thì sao?Google sẽ xử lý giống như các nội dung website bình thường. Sau đó, nó sẽ tự gợi ý một trang gốc sau đó (xem lại câu hỏi về lỗi 404 ở trên).
Tôi có thể dùng 1 trang chyển hướng (redirect) cho rel="canonical" ?Có ! Bạn có thể làm vậy. Google sẽ vẫn thực hiện việc chuyển hướng và index trang đích.
Chuyện gì xảy ra nếu tôi có nhiều trang và link đến các trang gốc khác nhau giữa các trang đó?Google sẽ đi theo dây chuyền ! Nghĩa là nó xem trang A có trang gốc là B, trang B có trang gốc là C, trang C có trang gốc là D. Vậy, trang D là trang gốc của tất cả các trang A,B,C. Tuy nhiên, Google khuyên chúng ta nên sử dụng 1 trang duy nhất làm trang gốc của nội dung.
Tôi có thể xác định rel="canonical" đến một domain khác ?Để làm điều đó, tốt hơn bạn nên dùng redirect 301 sẽ tốt hơn. Bạn có thể sử dụng dùng rel="canonical" cho một tên miền phụ (ví dụ: vnwebmaster.com với seo.vnwebmaster.com) nhưng đừng sử dụng giữa 2 tên miền khác nhau (Ví dụ: vnwebmaster.com và nhanweb.com)
Có thể cho tôi một ví dụ cụ thể hơn về việc sử dụng rel="canonical"Bạn có thể xem xét giữa 2 URL sau:
http://starwars.wikia.com/wiki/Nelvana_Limited và
http://starwars.wikia.com/wiki/Nelvana (đều có cùng nội dung). Viewsource trang
http://starwars.wikia.com/wiki/Nelvana_Limited bạn sẽ thấy: