重複的內容
什麼是重複內容?
重複內容是指出現在 Internet 上不止一處的內容。這個“一個地方”被定義為一個具有唯一站點地址的站點( 網址 ) - 因此,如果相同的內容出現在多個網址中,則您的內容是重複的。
雖然 技術上不好 ,重複內容有時會影響搜索引擎排名。當有很多塊時, 正如穀歌所說 , 多個 Internet 站點上的“基本相似”內容會使搜索引擎難以決定哪個版本與給定的搜索查詢最相關。
為什麼重複的內容很重要?
對於搜索引擎
重複的內容會給搜索引擎帶來三個關鍵問題:
對於網站所有者
當存在重複的內容時,網站所有者可能會遭受排名和流量損失。這些損失通常來自兩個主要問題:
- 為了提供最佳搜索體驗,搜索引擎很少會顯示相同內容的多個版本,因此被迫選擇最有可能獲得最佳結果的版本。這會稀釋能見度 每個人 從雙打。
- Equity Link 可以進一步稀釋,因為其他站點必須在重複項之間進行選擇。它們不是所有傳入鏈接都顯示一個內容,而是鏈接到多個內容,從而傳播重複項之間的鏈接定律。因為入站鏈接是 排名因素 ,這會影響一段內容的搜索可見性。
淨結果?否則,一段內容不會實現搜索可見性。

重複內容問題是如何發生的?
在絕大多數情況下,網站所有者不會創建 故意地 雙內容。但這並不意味著它不在那裡。事實上,根據一些估計,高達 29% 的組織 實際上是重複的內容!
讓我們來看看一些最常見的錯誤創建重複內容的方法:
1. 網址變體
URL 參數(例如點擊跟踪和一些詳細代碼)可能會導致重複內容問題。這不僅可能是由參數本身引起的問題,還可能是由這些參數在 URL 本身中的顯示順序引起的。
例如:
- www.widgets.com/blue-widgets?c... 是它的副本 www.widgets.com/blue-widgets?c... & cat = 3 "class="redactor-autoparser-object"> www.widgets。 com / 藍色小部件 是它的副本 www.widgets.com/blue-widgets ?貓 = 3 & 顏色 = 藍色
同樣,登錄 ID 是常見的雙重內容創建者。當每個訪問站點的用戶在 URL 中存儲了不同的登錄 ID 時,就會發生這種情況。

在索引多個版本的頁面時,適合打印的內容版本也可能導致重複的內容問題。

這裡的一個教訓是,如果可能,避免添加 URL 或 URL 的替代版本通常會有所幫助(它們包含的信息通常可以通過腳本)。
2. HTTP 與 HTTPS 或 WWW 與非 WWW 頁面
如果您的站點在“www.site.com”和“site.com”(帶有和不帶有前綴“www”)上有不同的版本,並且兩個版本中存在相同的內容,那麼您已經有效地為這些頁面中的每一個創建了副本。對於同時維護 http:// 和 https:// 的站點也是如此。如果頁面的兩個版本都處於活動狀態並且對搜索引擎可見,您可能會遇到重複的內容問題。
3. 已復製或複製的內容
內容不僅包括博客文章或社論內容,還包括產品信息頁面。將您的博客內容重新發佈到他們自己的網站的抓取工具可能是更熟悉的重複內容來源,但電子商務網站存在一個常見問題:產品信息。如果許多不同的站點銷售相同的商品並且都使用這些商品的製造商的描述,則相同的內容會導致網絡上出現多個站點。
如何解決雙重內容問題
解決雙重內容問題基於相同的中心思想:確定哪個副本是“正確的”副本。
每當可以在多個 URL 上找到站點上的內容時,它應該 被歸一化 對於搜索引擎。讓我們看看執行此操作的三種基本方法:使用 301 重定向到正確的 URL、rel = canonical 屬性或使用 Google Search Console 配置工具。
重定向 301
在許多情況下,打擊重複內容的最佳方法是創建一個 重定向 301 從“重複”頁面到內容主頁。
當多個排名合併為一頁時,它們不會停止相互競爭。它們還創造了更強的整體相關性和受歡迎程度的信號。這將對“正確”頁面的得分能力產生積極影響。

Rel =“正常”
處理重複內容的另一種選擇是使用該功能 rel = 規範 .這告訴搜索引擎應該將給定頁面視為指定 URL 的副本,並且搜索引擎應用到該頁面的所有鏈接、內容指標和“排名能力”都應歸入指定 URL。URL。

rel = "canonical" 屬性是網頁 HTML 標頭的一部分,如下所示:
一般形式:
... [可能在文檔的 HTML 標題中的其他代碼] ... ... [文檔 HTML 頭中可能存在的其他代碼] ...
rel = canonical 屬性必須添加到頁面的每個重複版本的 HTML 標題中,“主頁的 URL”部分被替換為(普通)主頁的鏈接。 (確保保留引號。)該屬性花費與重定向 301 相同數量的鏈接(排名能力),並且因為它適用於頁面級別(而不是服務器),所以它通常需要更少的部署時間來實現。
以下是實踐中正常功能的示例:

使用它 魔棒 識別正常特徵。
在這裡,我們可以看到 BuzzFeed 使用 rel = canonical 屬性來自定義 URL 參數的使用(在本例中為點擊跟踪)。儘管可以通過兩個 URL 訪問此頁面,但 rel = canonical 屬性可確保將相同鏈接和內容的所有指標分配給主頁 (/ no-one-do-this-now)。
元機器人 Noindex
一種對處理重複內容特別有用的元標記是 元機器人 ,當與值“noindex,follow”一起使用時。通常稱為 元無索引,關注 技術上稱為 content = “noindex, follow” 這個元機器人標籤可以添加到每個應該從搜索引擎索引中排除的頁面的 HTML 頭部。
一般形式:
... [另一個可能位於文檔 HTML 標題中的代碼] ... ... [另一個可能位於文檔 HTML 標題中的代碼] ...
meta-robot 標籤允許搜索引擎抓取頁面上的鏈接,但阻止它們將這些鏈接包含在其索引中。能夠抓取重複頁面很重要,即使您告訴 Google 不要將其編入索引,因為 Google 明確警告您不要限制對您網站上重複內容的抓取訪問。 (搜索引擎希望看到所有內容,以防您在代碼中犯錯誤。這允許他們在其他模棱兩可的情況下進行[潛在自動化]“危機呼叫”。)
對於與以下內容相關的重複內容問題,使用元機器人是一個特別好的解決方案 分頁 .
Google Search Console 中的首選域和參數處理
谷歌搜索控制台讓你定義它 首選部門 您網站的(例如 http://yoursite.com 而不是 http://www.yoursite.com)並指定 Googlebot 是否應該 檢測不同的 URL 參數 不同(參數處理)。

根據 URL 的結構和重複內容問題的原因,設置首選域或參數處理(或兩者!)可能會提供解決方案。
使用參數作為處理重複內容的主要方法的主要缺點是您所做的更改僅適用於 Google。使用 Google Search Console 應用的任何規則都不會影響 Bing 或其他搜索引擎抓取工具解釋您網站的方式。除了在 Search Console 中自定義設置外,您還需要將網站管理員工具用於其他搜索引擎。
處理重複內容的其他方法
- 在內部鏈接到站點時保持一致性。例如,如果站長發現一個域的正常版本是 www.example.com/,那麼所有內部鏈接都應該轉到 地址 HTTP:// WWW。 例子.co… 反而 HTTP:// example.com/pa… (注意沒有 www)。
- 分發內容時,請確保聯盟站點添加返回原始內容的鏈接,而不是 URL 的變體。 (觀看 Whiteboard 的 Fridayboard 插曲 通過處理重複的內容 想要查詢更多的信息。)
- 為了防止內容盜竊竊取您的內容的 SEO 信用,最好添加一個自引用的 rel = 規範鏈接到您現有的頁面。這是一個正常的功能,顯示它已經擁有的 URL,以防止一些抓取嘗試。
自引用 rel = normal 鏈接:rel = normal 標籤上指定的 URL 與當前頁面 URL 相同。
儘管並非所有的剪貼板都會通過其源材料的完整 HTML 代碼進行傳輸,但有些會。 對於那些這樣做的人,自我引用 rel = 常規標籤將確保您的網站版本將被視為“原始”內容。