重复的内容
什么是重复内容?
重复内容是指出现在 Internet 上不止一处的内容。这个“一个地方”被定义为一个具有唯一站点地址的站点( 网址 ) - 因此,如果相同的内容出现在多个网址中,则您的内容是重复的。
虽然 技术上不好 ,重复内容有时会影响搜索引擎排名。当有很多块时, 正如谷歌所说 , 多个 Internet 站点上的“基本相似”内容会使搜索引擎难以确定哪个版本与给定的搜索查询最相关。
为什么重复的内容很重要?
对于搜索引擎
重复的内容会给搜索引擎带来三个关键问题:
对于网站所有者
当存在重复的内容时,网站所有者可能会遭受排名和流量损失。这些损失通常来自两个主要问题:
- 为了提供最佳搜索体验,搜索引擎很少会显示相同内容的多个版本,因此被迫选择最有可能获得最佳结果的版本。这会稀释能见度 每个人 从双打。
- Equity Link 可以进一步稀释,因为其他站点必须在重复项之间进行选择。它们不是所有传入链接都显示一个内容,而是链接到多个内容,从而传播重复项之间的链接定律。因为入站链接是 排名因素 ,这会影响一段内容的搜索可见性。
净结果?否则,一段内容不会实现搜索可见性。

重复内容问题是如何发生的?
在绝大多数情况下,网站所有者不会创建 故意地 双内容。但这并不意味着它不在那里。事实上,根据一些估计,高达 29% 的组织 实际上是重复的内容!
让我们来看看一些最常见的错误创建重复内容的方法:
1. 网址变体
URL 参数(例如点击跟踪和一些详细代码)可能会导致重复内容问题。这不仅可能是由参数本身引起的问题,还可能是由这些参数在 URL 本身中的显示顺序引起的。
例如:
- www.widgets.com/blue-widgets?c... 是它的副本 www.widgets.com/blue-widgets?c... & cat = 3 "class="redactor-autoparser-object"> www.widgets。 com / 蓝色小部件 是它的副本 www.widgets.com/blue-widgets ?猫 = 3 & 颜色 = 蓝色
同样,登录 ID 是常见的双重内容创建者。当每个访问站点的用户在 URL 中存储了不同的登录 ID 时,就会发生这种情况。

在索引多个版本的页面时,适合打印的内容版本也可能导致重复的内容问题。

这里的一个教训是,如果可能,避免添加 URL 或 URL 的替代版本通常会有所帮助(它们包含的信息通常可以通过脚本)。
2. HTTP 与 HTTPS 或 WWW 与非 WWW 页面
如果您的站点在“www.site.com”和“site.com”(带有和不带有前缀“www”)上有不同的版本,并且两个版本中存在相同的内容,那么您已经有效地为这些页面中的每一个创建了副本。对于同时维护 http:// 和 https:// 的站点也是如此。如果页面的两个版本都处于活动状态并且对搜索引擎可见,您可能会遇到重复的内容问题。
3. 已复制或复制的内容
内容不仅包括博客文章或社论内容,还包括产品信息页面。将您的博客内容重新发布到他们自己的网站的抓取工具可能是更熟悉的重复内容来源,但电子商务网站存在一个常见问题:产品信息。如果许多不同的站点销售相同的商品并且都使用这些商品的制造商的描述,则相同的内容会导致网络上出现多个站点。
如何解决双重内容问题
解决双重内容问题基于相同的中心思想:确定哪个副本是“正确的”副本。
每当可以在多个 URL 上找到站点上的内容时,它应该 被归一化 对于搜索引擎。让我们看看执行此操作的三种基本方法:使用 301 重定向到正确的 URL、rel = canonical 属性或使用 Google Search Console 配置工具。
重定向 301
在许多情况下,打击重复内容的最佳方法是创建一个 重定向 301 从“重复”页面到内容主页。
当多个排名合并为一页时,它们不会停止相互竞争。它们还创造了更强的整体相关性和受欢迎程度的信号。这将对“正确”页面的得分能力产生积极影响。

Rel =“正常”
处理重复内容的另一种选择是使用该功能 rel = 规范 .这告诉搜索引擎应该将给定页面视为指定 URL 的副本,并且搜索引擎应用于该页面的所有链接、内容指标和“排名能力”都应归入指定 URL。URL。

rel = "canonical" 属性是网页 HTML 标头的一部分,如下所示:
一般形式:
... [可能在文档的 HTML 标题中的其他代码] ... ... [文档 HTML 头中可能存在的其他代码] ...
rel = canonical 属性必须添加到页面的每个重复版本的 HTML 标题中,“主页的 URL”部分被替换为(普通)主页的链接。 (确保保留引号。)该属性花费与重定向 301 相同数量的链接(排名能力),并且由于它适用于页面级别(而不是服务器),因此通常需要更少的部署时间来实现。
以下是实践中正常功能的示例:

使用它 魔棒 识别正常特征。
在这里,我们可以看到 BuzzFeed 使用 rel = canonical 属性来自定义 URL 参数的使用(在本例中为点击跟踪)。尽管可以通过两个 URL 访问此页面,但 rel = canonical 属性可确保将相同链接和内容的所有指标分配给主页 (/ no-one-do-this-now)。
元机器人 Noindex
一种对处理重复内容特别有用的元标记是 元机器人 ,当与值“noindex,follow”一起使用时。通常称为 元无索引,关注 技术上称为 content = “noindex, follow” 这个元机器人标签可以添加到每个应该从搜索引擎索引中排除的页面的 HTML 头部。
一般形式:
... [另一个可能位于文档 HTML 标题中的代码] ... ... [另一个可能位于文档 HTML 标题中的代码] ...
meta-robot 标签允许搜索引擎抓取页面上的链接,但阻止它们将这些链接包含在其索引中。能够抓取重复页面很重要,即使您告诉 Google 不要将其编入索引,因为 Google 明确警告您不要限制对您网站上重复内容的抓取访问。 (搜索引擎希望看到所有内容,以防您在代码中出错。这允许他们在其他模棱两可的情况下进行 [潜在自动化]“危机呼叫”。)
对于与以下内容相关的重复内容问题,使用元机器人是一个特别好的解决方案 分页 .
Google Search Console 中的首选域和参数处理
谷歌搜索控制台让你定义它 首选部门 您网站的(例如 http://yoursite.com 而不是 http://www.yoursite.com)并指定 Googlebot 是否应该 检测不同的 URL 参数 不同(参数处理)。

根据 URL 的结构和重复内容问题的原因,设置首选域或参数处理(或两者!)可能会提供解决方案。
使用参数作为处理重复内容的主要方法的主要缺点是您所做的更改仅适用于 Google。使用 Google Search Console 应用的任何规则都不会影响 Bing 或其他搜索引擎抓取工具解释您网站的方式。除了在 Search Console 中自定义设置外,您还需要将网站管理员工具用于其他搜索引擎。
处理重复内容的其他方法
- 在内部链接到站点时保持一致性。例如,如果站长发现一个域的正常版本是 www.example.com/,那么所有内部链接都应该转到 地址 HTTP:// WWW。 例子.co… 反而 HTTP:// example.com/pa… (注意没有 www)。
- 分发内容时,请确保联盟站点添加返回原始内容的链接,而不是 URL 的变体。 (观看 Whiteboard 的 Fridayboard 插曲 通过处理重复的内容 想要查询更多的信息。)
- 为了防止内容盗窃窃取您的内容的 SEO 信用,最好添加一个自引用的 rel = 规范链接到您现有的页面。这是一个正常的功能,显示它已经拥有的 URL,以防止一些抓取尝试。
自引用 rel = normal 链接:rel = normal 标签上指定的 URL 与当前页面 URL 相同。
尽管并非所有的剪贴板都会通过其源材料的完整 HTML 代码进行传输,但有些会。 对于那些这样做的人,自我引用 rel = 常规标签将确保您的网站版本将被视为“原始”内容。