Contenido duplicado
¿Qué es el contenido duplicado?
El contenido duplicado es contenido que aparece en Internet en más de un lugar. Este "un lugar" se define como un sitio con una dirección de sitio única ( URL ) - por lo que si el mismo contenido aparece en más de una dirección web, tiene contenido duplicado.
A pesar de que no está técnicamente bien , el contenido duplicado a veces puede afectar la clasificación de los motores de búsqueda. Cuando hay muchas piezas, como lo llama Google El contenido "sustancialmente similar" en más de un sitio de Internet puede dificultar que los motores de búsqueda decidan qué versión es más relevante para una consulta de búsqueda determinada.
¿Por qué es importante el contenido duplicado?
Para motores de búsqueda
El contenido duplicado puede presentar tres problemas clave para los motores de búsqueda:
- No saben qué versiones deben incluirse / excluirse de sus índices.
- No saben si dirigirán las métricas del enlace (confianza, autoridad, texto de anclaje ,equidad de enlace , etc.) en una página o manténgala separada entre varias versiones.
- No saben qué versiones clasificar para los resultados de la consulta.
Para propietarios de sitios web
Cuando hay contenido duplicado, los propietarios de sitios web pueden sufrir clasificaciones y pérdida de tráfico. Estas pérdidas a menudo provienen de dos problemas principales:
- Para proporcionar la mejor experiencia de búsqueda, los motores de búsqueda rara vez mostrarán varias versiones del mismo contenido y, por lo tanto, se ven obligados a elegir qué versión tiene más probabilidades de obtener el mejor resultado. Esto diluye la visibilidad todo el mundo de los dobles.
- Equity Link se puede diluir aún más, ya que otros sitios tienen que elegir entre duplicados. En lugar de que todos los enlaces entrantes muestren una parte del contenido, se vinculan a varias partes, difundiendo la ley del enlace entre los duplicados. Porque los enlaces entrantes son factor de clasificación , esto puede afectar la visibilidad de búsqueda de un contenido.
¿El resultado neto? Un fragmento de contenido no logra visibilidad de búsqueda, de lo contrario.

¿Cómo ocurren los problemas de contenido duplicado?
En la gran mayoría de los casos, los propietarios de sitios web no crean intencionalmente contenido dual. Pero eso no significa que no esté disponible. De hecho, según algunas estimaciones, hasta 29% del tejido es en realidad contenido duplicado.
Echemos un vistazo a algunas de las formas más comunes de crear contenido duplicado por error:
1. Variaciones de URL
Los parámetros de URL, como el seguimiento de clics y algunos códigos de detalle, pueden causar problemas de contenido duplicado. Esto puede ser un problema causado no solo por los parámetros en sí, sino también por el orden en que estos parámetros se muestran en la URL.
Por ejemplo:
- Www.widgets.com/blue-widgets?c… es un duplicado de eso www.widgets.com/blue-widgets?c… & cat = 3 "class =" redactor-autoparser-object "> www.widgets. com / blue-widgets es una copia de ella www.widgets.com/blue-widgets ? gato = 3 y color = azul
Del mismo modo, los ID de inicio de sesión son un creador de contenido dual común. Esto sucede cuando cada usuario que visita un sitio tiene un ID de inicio de sesión diferente almacenado en la URL.

Las versiones de contenido que se pueden imprimir también pueden causar problemas de contenido duplicado cuando se indexan varias versiones de página.

Una lección aquí es que, cuando sea posible, a menudo es útil evitar agregar URL o versiones alternativas de URL (la información que contienen generalmente puede pasar por scripts).
2. HTTP frente a HTTPS o WWW frente a páginas distintas de WWW
Si su sitio tiene versiones separadas en "www.site.com" y "site.com" (con y sin el prefijo "www") y el mismo contenido se encuentra en ambas versiones, ha creado efectivamente duplicados de cada una de estas páginas. Lo mismo ocurre con los sitios que mantienen tanto http: // como https: //. Si ambas versiones de una página están activas y visibles para los motores de búsqueda, es posible que experimente un problema de contenido dual.
3. Contenido copiado o duplicado
El contenido incluye no solo publicaciones de blogs o contenido editorial, sino también páginas de información de productos. Los raspadores que vuelven a publicar el contenido de su blog en sus propios sitios pueden ser una fuente más familiar de contenido dual, pero existe un problema común con los sitios de comercio electrónico: la información del producto. Si muchos sitios diferentes venden los mismos artículos y todos usan las descripciones del fabricante de estos artículos, el mismo contenido da como resultado varios sitios en la web.
Cómo resolver problemas de contenido dual
La resolución de problemas de contenido dual se basa en la misma idea central: determinar qué duplicado es el "correcto".
Siempre que el contenido de un sitio se pueda encontrar en varias URL, debe está normalizado para motores de búsqueda. Veamos tres formas básicas de hacer esto: usando un redireccionamiento 301 a la URL correcta, el atributo rel = canonical, o usando la herramienta de configuración de Google Search Console.
Redirigir 301
En muchos casos, la mejor forma de combatir el contenido duplicado es crear uno redirigir 301 de la página "duplicada" a la página de inicio del contenido.
Cuando se combinan varios rankings en una página, no dejan de competir entre sí. también crean una señal más fuerte de relevancia y popularidad en general. Esto afectará positivamente la capacidad de la página "correcta" para obtener una buena puntuación.

Rel = "normal"
Otra opción para lidiar con contenido duplicado es usar la función rel = canonical . Esto le dice a los motores de búsqueda que una página determinada debe tratarse como si fuera una copia de una URL específica, y todos los enlaces, métricas de contenido y "poder de clasificación" aplicados por los motores de búsqueda a esa página deben acreditarse a la URL especificada. URL .

El atributo rel = "canonical" es parte del encabezado HTML de una página web y tiene este aspecto:
Forma general:
... [otro código que puede estar en el encabezado HTML de su documento] ... ... [otro código que puede estar presente en el encabezado HTML de sus documentos] ...
El atributo rel = canonical debe agregarse al encabezado HTML de cada versión duplicada de una página, y la sección "URL de la página de inicio" se debe reemplazar por un enlace a la página de inicio (normal). (Asegúrese de mantener las comillas). El atributo gasta aproximadamente la misma cantidad de enlaces iguales (poder de clasificación) que el redireccionamiento 301 y, debido a que se aplica a nivel de página (en lugar del servidor), a menudo lleva menos tiempo de implementación implementarlo.
El siguiente es un ejemplo de una característica normal en la práctica:

Usándolo MozBar para identificar características normales.
Aquí, podemos ver que BuzzFeed usa los atributos rel = canonical para personalizar el uso de los parámetros de URL (en este caso, seguimiento de clics). Aunque se puede acceder a esta página con dos URL, el atributo rel = canonical garantiza que todas las métricas de los mismos enlaces y contenido se asignen a la página de inicio (/ no-one-do-this-now).
Meta Robots Noindex
Una metaetiqueta que puede ser especialmente útil para tratar con contenido duplicado es meta-robot , cuando se usa con los valores "noindex, siga". Generalmente llamado Meta Noindex, Seguir y técnicamente conocido como content = "noindex, follow", esta etiqueta de meta-robot se puede agregar al encabezado HTML de cada página individual que debe excluirse del índice de un motor de búsqueda.
Forma general:
... [otro código que puede estar en el encabezado HTML de su documento] ... ... [otro código que puede estar en el encabezado HTML de su documento] ...
La etiqueta de meta-robot permite a los motores de búsqueda rastrear enlaces en una página, pero les impide incluir esos enlaces en sus índices. Es importante poder rastrear la página duplicada, incluso si le dice a Google que no la indexe, porque Google le advierte explícitamente que no restrinja el acceso de rastreo al contenido duplicado en su sitio. (Los motores de búsqueda quieren ver todo en caso de que cometa un error en su código. Les permite hacer una "llamada de crisis" [potencialmente automatizada] en situaciones que de otro modo serían ambiguas).
El uso de meta-robots es una solución particularmente buena para problemas de contenido duplicado relacionados con paginación .
Manejo preferido de dominios y parámetros en Google Search Console
Google Search Console te permite definirlo sector preferido de su sitio (p. ej. http://yoursite.com en lugar de http://www.yoursite.com) y especifique si el robot de Google debe detectar diferentes parámetros de URL diferente (manejo de parámetros).

Dependiendo de la estructura de la URL y la causa de sus problemas de contenido duplicado, configurar su dominio preferido o manejo de parámetros (¡o ambos!) Puede ofrecer una solución.
La principal desventaja de utilizar parámetros como método principal para tratar el contenido duplicado es que los cambios que realiza solo funcionan para Google. Las reglas que se apliquen al usar la Consola de búsqueda de Google no afectarán la forma en que Bing u otros rastreadores de motores de búsqueda interpretan su sitio. Deberá utilizar las herramientas para webmasters para otros motores de búsqueda, además de personalizar la configuración en la Consola de búsqueda.
Métodos adicionales para lidiar con contenido duplicado
- Mantenga la coherencia al vincular internamente a un sitio. Por ejemplo, si un webmaster descubre que la versión normal de un dominio es www.example.com/, todos los enlaces internos deben ir a dirección http: // www. example.co… en lugar de http: // example.com/pa… (tenga en cuenta la ausencia de www).
- Al distribuir contenido, asegúrese de que el sitio del consorcio agregue un enlace al contenido original, no una variante a la URL. (Vea el episodio de Fridayboard de Whiteboard en ese tratando con contenido duplicado para más información.)
- Para agregar protección adicional contra el robo de contenido que roba el crédito de SEO para su contenido, es una buena idea agregar un enlace rel = canonical de autorreferencia a sus páginas existentes. Esta es una característica normal que muestra la URL que ya tiene, para evitar algunos intentos de scraper.
Un vínculo rel = normal con autorreferencia: la URL especificada en la etiqueta rel = normal es la misma que la URL de la página actual.
Aunque no todos los scrappers se transferirán sobre el código HTML completo de su material de origen, algunos lo harán. Para aquellos que lo hacen, la etiqueta autorreferencial rel = regular asegurará que la versión de su sitio se acredite como el contenido "original".