El contenido duplicado es el error de optimización de una página más común. El problema del contenido duplicado: qué es un “duplicado” para los buscadores

Muchos propietarios de sitios web se centran principalmente en garantizar que el contenido sea único en comparación con otros recursos. Sin embargo, no debes perder de vista la presencia de contenido duplicado dentro de un mismo sitio. Esto también tiene un fuerte impacto en las clasificaciones.

¿Qué es el contenido duplicado?

El contenido repetitivo o duplicado son bloques voluminosos de texto que coinciden dentro del sitio en diferentes páginas. Esto no se hace necesariamente con intenciones maliciosas; más a menudo ocurre por razones técnicas, que se analizan en detalle a continuación.

El peligro es que muchas veces el contenido duplicado no se puede ver a simple vista, pero el motor de búsqueda lo ve perfectamente y reacciona en consecuencia.

¿De dónde procede el contenido duplicado y dónde es más común?

Las principales razones de este fenómeno:

  • Cambiar la estructura del sitio;
  • Uso intencional para un propósito específico (por ejemplo, versiones impresas);
  • Acciones erróneas de programadores y webmasters;
  • Problemas con el CMS.

Por ejemplo, ocurre una situación común: Replytocom (responder a un comentario) en WordPress genera automáticamente nuevas páginas con diferentes URL, pero no contenido.

Por lo general, el contenido duplicado se detecta al crear anuncios de artículos en otras páginas del sitio, al publicar reseñas y también cuando hay descripciones idénticas de productos, categorías y títulos.

Por qué el contenido duplicado es malo

El contenido repetido tiene un análogo en el campo de la economía: el sobregiro bancario. Aquí es donde se gasta el llamado presupuesto móvil. Esta es la cantidad de páginas de recursos que un motor de búsqueda puede rastrear en un período de tiempo específico. El recurso es muy valioso y es mejor gastarlo en páginas verdaderamente importantes y relevantes que en decenas de duplicados de texto idéntico.

Por tanto, el contenido duplicado empeora la optimización de los motores de búsqueda. Además, los enlaces naturales se pierden y el contenido de enlaces se distribuye incorrectamente dentro del sitio. Y también se reemplazan páginas verdaderamente relevantes.

Cómo encontrar contenido duplicado en un sitio web (manualmente, programas y servicios)

Existen programas especiales para el análisis de recursos. De estos, los usuarios destacan especialmente Netpeak Spider. Busca copias completas de páginas, coincidencias por título o descripción, o encabezados. Otra opción es Screaming Frog, que tiene una funcionalidad similar y esencialmente se diferencia sólo en la interfaz. También está la aplicación Link Sleuth de Xenu, que funciona de manera similar a un motor de búsqueda y es capaz de buscar duplicados en un sitio de manera bastante eficiente.

Desafortunadamente, no existen herramientas que puedan rastrear completamente todos los textos duplicados. Por lo tanto, lo más probable es que tengas que realizar una verificación manual. Aquí hay una lista de posibles factores que causaron el problema:


Descubrimos cómo encontrar contenido duplicado. Y los mejores ayudantes en la lucha contra esto son los redireccionamientos 301, las etiquetas URL canónicas, las instrucciones en robots.txt y los parámetros Nofollow y Noindex como parte de la metaetiqueta "robots".

Una forma de comprobar rápidamente si hay contenido duplicado en un sitio es mediante una búsqueda avanzada en Yandex o Google. Debe ingresar la dirección del sitio y un fragmento de texto de la página que decidió consultar. También puede utilizar numerosos programas para comprobar la unicidad del texto:

  • Texto.Ru;
  • eTXT Antiplagio;
  • Advego Plagiatus;
  • Ver contenido.

Cómo tratar y limpiar contenido duplicado

El mismo sistema de ayuda de Google da una serie de consejos para evitar que se produzca este problema.

  • 301. Al realizar cambios estructurales en un recurso, debe especificar una redirección 301 en el archivo htaccess.
  • Utilice un único estándar de referencia.
  • El contenido específico de una región se ubica mejor en dominios de nivel superior que en subdominios o subdirectorios.
  • Configure su método de indexación preferido mediante Search Console.
  • No utilices plantillas. En lugar de colocar texto de copyright en cada página, es mejor crear un enlace que conduzca a una página separada con este texto.
  • Al desarrollar nuevas páginas, asegúrese de que no puedan indexarse ​​hasta que estén completamente listas.
  • Comprenda exactamente cómo se muestra su contenido; puede haber diferencias en la visualización en blogs y foros.
  • Si hay muchos artículos similares en el sitio, es mejor combinar su contenido en uno solo o unificar cada uno.

Los motores de búsqueda no imponen ninguna sanción contra los sitios que tienen contenido duplicado por razones técnicas (a diferencia de aquellos que lo hacen deliberadamente para manipular los resultados de la búsqueda o engañar a los visitantes).

Una vez eliminados los duplicados, solo queda eliminarlos de los resultados de búsqueda. Yandex hace esto por sí solo, siempre que el archivo robots.txt esté configurado correctamente. En cuanto a Google: tendrás que configurar las reglas manualmente en Webmaster, en la pestaña "Parámetros de URL".

Conclusión

La lucha contra el contenido duplicado en un sitio web es un aspecto importante de las actividades del propietario de cualquier sitio web. Hay bastantes razones para su aparición y tantas formas de eliminarlo.

Sin embargo, la regla principal sigue siendo: publicar exclusivamente contenido original, independientemente del tipo de sitio. Incluso si se trata de una gran cadena de tiendas con miles de páginas.

RECIBE ANUNCIOS DE PUBLICACIONES SIMILARES A TU CORREO ELECTRÓNICO

Suscríbete y recibe no más de una vez por semana algo interesante del mundo del marketing en Internet, SEO, promoción de sitios web, tiendas online y ganar dinero con sitios web.

Contenido duplicado puede dividirse en tres grandes categorías: duplicado exacto, donde dos URL tienen contenido completamente idéntico, contenido con pequeñas diferencias(orden de las oraciones, imágenes ligeramente diferentes, etc.) y duplicados entre dominios, donde existe una copia exacta o ligeramente modificada en muchos dominios.

Hay dos conceptos relacionados que Google no considera lo mismo que contenido duplicado, pero que a menudo confunden a los editores y a los SEO sin experiencia:

  • contenido delgado - Como se señaló anteriormente, se trata de páginas que tienen muy poco contenido. Un ejemplo es un conjunto de páginas creadas a partir de una lista de direcciones de organizaciones que tiene 5000 direcciones, pero cada página contiene solo una dirección, solo unas pocas líneas;
  • corte de contenido - Las páginas que difieren ligeramente entre sí entran en esta categoría. Imagine un sitio que vende zapatos Nike Air Max que vienen en tallas 37, 37.5, 38, 38.5, 39, ... 46. Si el sitio tiene una página separada para cada talla de zapato, entonces la diferencia entre todas estas páginas será insignificante. Google llama a este efecto en rodajas finas.

A Google no le gusta el contenido fino o el corte fino. Cualquiera de estos efectos puede ser detectado por el algoritmo Panda. . No está claro exactamente cómo Bing diferencia entre contenido duplicado, contenido ligero y segmentación de contenido, pero está claro que los editores deben evitar la creación de este tipo de páginas.

El contenido duplicado puede ocurrir por muchas razones, incluida la licencia del contenido de su sitio, defectos en la arquitectura del sitio debido a un sistema de administración de contenido que no está optimizado para los motores de búsqueda o debido a la presencia de plagio. En los últimos cinco años, los spammers ávidos de contenido han comenzado a extraer contenido de fuentes legítimas, reorganizar palabras mediante una variedad de procesos complejos y colocar el texto resultante en sus páginas para atraer búsquedas de cola larga y mostrar publicidad contextual, y también para otros propósitos deshonestos.

Por lo tanto, hoy vivimos en un mundo de “problemas de contenido duplicado” y “sanciones por contenido duplicado”. Aquí hay algunas definiciones que serán útiles para nuestra discusión.

  • Contenido único- escrito por un ser humano, completamente diferente de cualquier otra combinación de letras, símbolos y palabras en la World Wide Web, y no afectado por algoritmos informáticos de procesamiento de texto (como las herramientas de spam que utilizan cadenas de Markov).
  • Fragmentos - Se trata de pequeños fragmentos de contenido (como citas) que se copian y reutilizan una y otra vez. Casi nunca son un problema para los motores de búsqueda, especialmente cuando se incluyen en un documento más grande con mucho contenido exclusivo.
  • Herpes zóster - Los motores de búsqueda buscan segmentos relativamente pequeños de frases (cinco a seis palabras) en otras páginas de la World Wide Web. Si dos documentos tienen demasiados elementos en común, los motores de búsqueda pueden interpretar estos documentos como contenido duplicado.
  • Problemas de contenido duplicado - Esta frase suele servir para indicar contenido duplicado, por el cual un sitio puede ser penalizado. Dicho contenido es simplemente una copia de una página existente, lo que obliga al motor de búsqueda a elegir qué versión mostrar en el índice (este es el llamado filtro de contenido duplicado).
  • Filtro de contenido duplicado - una situación en la que un motor de búsqueda elimina contenido similar de los resultados de búsqueda para proporcionar mejores resultados al usuario.
  • Penalización por contenido duplicado - Las multas (sanciones) rara vez se utilizan y sólo en situaciones obvias. Los motores de búsqueda pueden reducir la clasificación o prohibir las páginas restantes del sitio, o incluso prohibir todo el sitio web.

Consecuencias del contenido duplicado

Suponiendo que su contenido duplicado es el resultado de un descuido inofensivo por parte de sus desarrolladores, el motor de búsqueda probablemente filtrará todas las páginas duplicadas (excepto una) porque solo quiere mostrar una versión de ese contenido en las páginas de resultados de búsqueda. En algunos casos, el motor de búsqueda puede filtrar los resultados antes de incluirlos en el índice y, en otros casos, puede permitir que la página se indexe y la filtre al preparar los resultados de la búsqueda en respuesta a una consulta específica. En este último caso, la página puede filtrarse en respuesta a algunas consultas específicas y no filtrarse para otras.

Los usuarios quieren ver variedad en los resultados (no los mismos resultados una y otra vez). Por tanto, los motores de búsqueda intentan filtrar el contenido duplicado, y esto tiene las siguientes consecuencias:

  • Un robot de motor de búsqueda llega a un sitio con un presupuesto de visualización determinado, expresado en el número de páginas que planea ver en cada sesión específica. Cada vez que llega a una página duplicada que simplemente debería filtrarse de los resultados de búsqueda, está permitiendo que el robot desperdicie parte de su presupuesto de rastreo. Esto significa que se verán menos páginas "buenas" y, como resultado, se incluirán menos páginas en el índice del motor de búsqueda;
  • Aunque los motores de búsqueda intentan filtrar el contenido duplicado, los enlaces a páginas con contenido duplicado aún les transmiten contenido duplicado. Por lo tanto, las páginas duplicadas pueden ganar PageRank o "link Juice", y dado que esto no les ayuda a clasificar, este recurso se desperdicia;
  • Ninguno de los motores de búsqueda ha proporcionado una explicación clara de cómo su algoritmo elige qué versión de la página mostrar. En otras palabras, si detecta tres copias del mismo contenido, ¿cuáles de ellas filtrará? ¿Cuál mostrará? ¿Depende de la consulta de búsqueda? Como resultado, es posible que el motor de búsqueda no muestre la versión que necesita.

Aunque algunos expertos en optimización pueden discutir algunos de los puntos presentados aquí, la estructura general es prácticamente indiscutible. Sin embargo, existen varios problemas con los límites de este modelo.

Por ejemplo, su sitio tiene un grupo de páginas de productos, así como versiones imprimibles de estas páginas. El motor de búsqueda puede optar por mostrar la versión imprimible en sus resultados. Esto sucede a veces, y puede suceder incluso cuando la página impresa tiene menos enlaces y una clasificación más baja que la página principal del producto.

Para corregir esta situación, debe aplicar el atributo de enlace rel=”canonical” a todas las versiones duplicadas de la página para indicar la versión principal.

La segunda opción puede surgir cuando distribuye su contenido (permite que se vuelva a publicar) a terceros. El problema es que el motor de búsqueda puede descartar el original de los resultados de búsqueda y preferir la versión utilizada por la persona que volvió a publicar su artículo. Hay tres posibles soluciones a este problema:

  • Haga que la persona que volvió a publicar su artículo enlace al artículo original en su sitio con el atributo rel="canonical". Esto indicará a los motores de búsqueda que su copia de la página es la original y cualquier enlace que apunte a la página sindicada se acreditará a su página original;
  • Haga que su socio de distribución cierre su copia con el atributo noindex. En este caso, el motor de búsqueda simplemente no indexará el contenido duplicado. Además, cualquier enlace de este contenido a su sitio seguirá otorgándole autorización;
  • Haga que su socio enlace de nuevo a la página original de su sitio. Los motores de búsqueda suelen interpretar esto correctamente y enfatizar su versión del contenido. Sin embargo, cabe señalar que ha habido casos en los que Google ha determinado incorrectamente la autoría del contenido y ha asignado la atribución al sitio que lo volvió a publicar, especialmente si ese sitio tiene mucha más autoridad y confianza que la verdadera fuente original del contenido.

¿Cómo reconocen los motores de búsqueda el contenido duplicado?

Ilustraremos el proceso de búsqueda de contenido duplicado en la World Wide Web para el motor de Google con ejemplos. En los ejemplos presentados en la Fig. 1-4, se hacen tres suposiciones:

  • una página con texto es una página que contiene contenido duplicado (y no sólo un fragmento del mismo, como se muestra en las imágenes);
  • todas las páginas con contenido duplicado están ubicadas en dominios diferentes;
  • Los pasos que se muestran a continuación se han simplificado para que el proceso sea lo más fácil y directo posible. Ciertamente, esta no es una descripción precisa de cómo funciona Google, pero transmite la idea.

Arroz. 1

Arroz. 2

Arroz. 3

Arroz. 4

Hay varios hechos relacionados con el contenido duplicado que merecen una mención especial porque pueden confundir a un webmaster que es nuevo en el tema del contenido duplicado. Consideremos estos factores.

  • Ubicación de contenido duplicado - Si todo este contenido está en mi sitio, ¿está duplicado? Sí, porque el contenido duplicado puede ocurrir tanto dentro de un sitio como en diferentes sitios.
  • Porcentaje de contenido duplicado -¿Qué porcentaje de una página debe duplicarse para calificar para el filtrado de contenido duplicado? Desafortunadamente, los motores de búsqueda nunca revelan esta información porque perjudicaría su capacidad para prevenir el problema en sí.
  • Podemos decir casi con seguridad que este porcentaje cambia constantemente para todos los motores y, al identificar contenido duplicado, no solo se realiza una comparación directa. La conclusión es que las páginas no tienen que ser idénticas para considerarse duplicadas.
  • Correlación entre código y texto -¿Qué pasa si nuestro código es muy grande, pero hay pocos elementos HTML únicos en la página? ¿Pensará Google que todas las páginas son duplicados entre sí? No. A los motores de búsqueda no les importa su código, les importa el contenido de sus páginas. El tamaño del código sólo se convierte en un problema cuando se vuelve excesivo.
  • La proporción de elementos de navegación y contenido único. Todas las páginas de mi sitio tienen una barra de navegación grande, muchos encabezados y pies de página, pero muy poco contenido. ¿Google considerará todas estas páginas duplicadas? No. Google (y Yahoo! y Bing) consideran los elementos de navegación antes de evaluar las páginas para detectar duplicaciones. Están muy familiarizados con el diseño de un sitio web y entienden que es completamente normal tener estructuras consistentes en todas las páginas (o en muchas de ellas). Prestan atención a las partes singulares de las páginas e ignoran casi por completo el resto.
  • Contenido con licencia -¿Qué sucede si quiero evitar problemas de contenido duplicado, pero tengo contenido de otras fuentes web que tengo licencia para mostrar a mis visitantes? Utilice el código meta name = "robots” content="noindex, follow" . Colóquelo en el encabezado de su página y los motores de búsqueda sabrán que este contenido no es para ellos. Esta es una buena práctica ya que las personas aún podrán visite esa página y enlace a ella, y los enlaces en esta página conservarán su valor.

Otra opción es obtener derechos exclusivos para poseer y publicar este contenido.

Detección y eliminación de violaciones de derechos de autor.

Una de las mejores formas de realizar un seguimiento de la duplicación en su sitio es utilizar CopyScape (copyscape.com), que le permite ver instantáneamente las páginas de la World Wide Web que utilizan su contenido. No se preocupe si las páginas de esos sitios están en el índice secundario o tienen una clasificación significativamente más baja que la suya; si un dominio grande, autorizado y rico en contenido intentara luchar contra todas las copias de su material en la World Wide Web, lo haría. Necesito, al menos dos personas a tiempo completo. Afortunadamente, los motores de búsqueda confían en estos sitios y, por tanto, los reconocen como fuentes originales.

Por otro lado, si tiene un sitio relativamente nuevo o un sitio con pocos enlaces entrantes, y los plagiadores están constantemente por encima de usted (o algún sitio poderoso está robando su trabajo), entonces hay algunas cosas que puede hacer. Una opción es enviar una solicitud al editor pidiéndole que elimine el contenido infractor. En algunos casos, el editor simplemente desconocía la infracción de derechos de autor. Otra opción es escribir al proveedor de hosting. Las empresas de hosting pueden ser potencialmente responsables de alojar contenido duplicado, por lo que a menudo responden rápidamente a dichas solicitudes. Solo asegúrese de estar preparado para proporcionar la mayor cantidad de documentación posible para demostrar la autoría del contenido.

La siguiente opción es enviar una solicitud de infracción de derechos de autor (DMCA) a Google, Yahoo! y Bing. También debe enviar la misma solicitud a la empresa que aloja el sitio web del infractor.

La segunda opción es iniciar acciones legales contra el sitio infractor o amenazar con hacerlo. Si el sitio que publica su trabajo es propiedad de su país, entonces esta opción es probablemente el primer paso más inteligente. Es posible que desee comenzar con una comunicación más informal y solicitar que se elimine el contenido incluso antes de enviar una carta formal de un abogado, ya que pueden pasar meses antes de que la acción DMCA de la agencia entre en vigor. Pero si no obtiene una respuesta, entonces no tiene motivos para retrasar una acción más seria.

Una opción muy efectiva y económica para este proceso es DCMA.com.

Situación con multa real.

Los ejemplos anteriores muestran cómo funcionan los filtros de contenido duplicado, pero no son multas, aunque en un sentido práctico el efecto es el mismo que el de las multas: una disminución en la clasificación de sus páginas. Sin embargo, también hay situaciones en las que puede surgir una multa real. Por ejemplo, los sitios que agregan contenido están en riesgo, especialmente si el sitio en sí agrega poco contenido único. En tal caso, el sitio podría incluso recibir una multa.

Esto sólo se puede corregir reduciendo el número de páginas duplicadas disponibles para el motor de búsqueda. Esto se logra eliminándolos, agregando un atributo canónico a los duplicados, un atributo noindex a las páginas mismas o agregando una cantidad significativa de contenido único.

Un ejemplo de contenido que puede filtrarse con frecuencia es Sitio asociado "delgado". Este suele ser el nombre que se le da a un sitio que promueve las ventas de productos de otras personas para ganar comisiones, pero no proporciona información nueva. Un sitio de este tipo podría obtener descripciones del fabricante del producto y simplemente reproducir esas descripciones junto con un enlace a un afiliado para ganar dinero con "clics" o compras.

El problema surge cuando un comerciante tiene miles de afiliados que utilizan el mismo contenido y los ingenieros de motores de búsqueda han recibido comentarios de los usuarios de que (desde su perspectiva) dichos sitios no añaden nada de valor a sus índices. Por lo tanto, los motores de búsqueda intentan filtrar dichos sitios o incluso excluirlos de sus índices. Muchos sitios utilizan modelos de afiliados, pero también ofrecen contenido nuevo y rico, por lo que normalmente no tienen problemas. Los motores de búsqueda actúan sólo cuando hay duplicación de contenido y falta de material único y valioso.

¿Cómo evitar contenido duplicado en el sitio?

Como señalamos anteriormente, el contenido duplicado se puede crear de muchas maneras. La duplicación interna de material requiere el uso de tácticas específicas para obtener los mejores resultados desde el punto de vista de la optimización. En muchos casos, las páginas duplicadas son páginas que no tienen valor ni para los usuarios ni para los motores de búsqueda. Si este es el caso, intente solucionar el problema por completo. Modifique su implementación para que solo una URL enlace a cada página. También realice una redirección 301 para las URL antiguas a las URL restantes. , para ayudar a los motores de búsqueda a ver los cambios que realizó lo más rápido posible y preservar el "link Juice" que tenían las páginas eliminadas.

Si esto no es posible, existen muchas otras opciones. . A continuación se ofrece un resumen de orientación sobre las soluciones más simples para una amplia variedad de escenarios:

  • utilice el archivo robots.txt para bloquear las arañas de los motores de búsqueda para que no rastreen versiones duplicadas de las páginas de su sitio;
  • utilice el elemento rel="canonical" - esta es la segunda solución (de las mejores) para eliminar páginas duplicadas;
  • usar CÓDIGO para dar instrucciones BUSCADOR Los motores no indexan páginas duplicadas.

Sin embargo, tenga en cuenta que si está utilizando un archivo robots.txt para evitar visitas a la página, aplicar el atributo noindex o nofollow en la página misma no tiene sentido. Como la araña no puede leer esta página, nunca verá los atributos noindex o nofollow. Con estas herramientas en mente, veamos algunas situaciones específicas de contenido duplicado.

    páginas HTTPS - Si está utilizando SSL (un intercambio cifrado entre su navegador y el servidor web, a menudo utilizado para el comercio electrónico), su sitio tendrá páginas que comenzarán con HTTPS: (en lugar de HTTP :). El problema surge cuando los enlaces en sus páginas HTTPS apuntan a otras páginas del sitio utilizando enlaces relativos en lugar de absolutos (por ejemplo, el enlace a su página de inicio se convierte en https://www.SuDominio.com en lugar de http:/ / www.TuDominio.com).

    Si su sitio tiene ese problema, para resolverlo puede utilizar el elemento rel="canonical" o las redirecciones 301. Una solución alternativa es cambiar los enlaces por unos absolutos: http://www.TuDominio.com/content.html en lugar de /contenthtml), lo que también hará la vida algo más difícil a quienes roben tu contenido.

  • Sistemas de gestión de contenidos que crean contenido duplicado - A veces un sitio tiene muchas versiones de páginas idénticas. Esto sucede debido a limitaciones en algunos sistemas de administración de contenido que abordan el mismo contenido con más de una URL. Por lo general, se trata de una duplicación completamente innecesaria que no tiene valor para los usuarios, y la mejor solución es eliminar las páginas duplicadas y realizar una redirección 301 de las páginas eliminadas a las páginas restantes. Si eso no funciona, pruebe con otros métodos (que se indican al principio de este artículo).
  • Páginas imprimibles o múltiples opciones de clasificación - Muchos sitios ofrecen páginas imprimibles que presentan el mismo contenido al usuario en un formato fácil de imprimir. Algunos sitios de comercio electrónico ofrecen listados de sus productos con muchos tipos posibles (por tamaño, color, marca y precio). Estas páginas tienen valor para el usuario, pero no tienen valor para los motores de búsqueda y, por lo tanto, les aparecerán como contenido duplicado. En esta situación, deberá utilizar una de las opciones proporcionadas anteriormente en este blog o personalizar la hoja CSS para imprimir (como se describe en la publicación yoast.com/added-print-css-style-sheet/ en Yoast). .
  • Contenido duplicado en blogs y sistemas de archivo - Los blogs presentan una variación interesante del problema del contenido duplicado. Una publicación de blog puede aparecer en varias páginas diferentes: la página de inicio del blog, la página de enlace permanente de la publicación, las páginas de archivo y las páginas de categorías. Cada instancia de una publicación es un duplicado de las otras instancias. Muy rara vez los editores intentan solucionar el problema de que una publicación esté presente tanto en la página de inicio del blog como en la página de enlace permanente. Y, aparentemente, los motores de búsqueda se enfrentan bastante bien a este problema. Sin embargo, podría tener sentido mostrar sólo fragmentos de publicaciones en páginas de categorías y archivos.
  • Contenido duplicado generado por el usuario (publicaciones repetidas, etc.) - Muchos sitios implementan estructuras para recibir contenido generado por el usuario, como blogs, foros o tableros de mensajes. Estas pueden ser excelentes formas de desarrollar grandes cantidades de contenido a un costo muy bajo. El problema es que un usuario puede publicar simultáneamente el mismo contenido en su sitio y en varios otros sitios, lo que genera contenido duplicado. Esto es difícil de controlar, pero se puede considerar lo siguiente para reducir el problema:
    • Debe tener una política clara que notifique a los usuarios que el contenido que proporcionan a su sitio debe ser único y no puede publicarse en otros sitios. Por supuesto, esto es difícil de lograr, pero le ayudará a comprender sus expectativas;
    • Implemente su foro de una manera única que requiera contenido diferente. Además de los campos de entrada de datos estándar, agregue también algunos campos únicos (diferentes de otros sitios) que serán útiles para que los vean los visitantes de su sitio.

Muchos propietarios de sitios web se centran principalmente en garantizar que el contenido sea único en comparación con otros recursos. Sin embargo, no debes perder de vista la presencia de contenido duplicado dentro de un mismo sitio. Esto también tiene un fuerte impacto en las clasificaciones.

¿Qué es el contenido duplicado?

El contenido repetitivo o duplicado son bloques voluminosos de texto que coinciden dentro del sitio en diferentes páginas. Esto no se hace necesariamente con intenciones maliciosas; más a menudo ocurre por razones técnicas, que se analizan en detalle a continuación.

El peligro es que muchas veces el contenido duplicado no se puede ver a simple vista, pero el motor de búsqueda lo ve perfectamente y reacciona en consecuencia.

¿De dónde procede el contenido duplicado y dónde es más común?

Las principales razones de este fenómeno:

  • Cambiar la estructura del sitio;
  • Uso intencional para un propósito específico (por ejemplo, versiones impresas);
  • Acciones erróneas de programadores y webmasters;
  • Problemas con el CMS.

Por ejemplo, ocurre una situación común: Replytocom (responder a un comentario) en WordPress genera automáticamente nuevas páginas con diferentes URL, pero no contenido.

Por lo general, el contenido duplicado se detecta al crear anuncios de artículos en otras páginas del sitio, al publicar reseñas y también cuando hay descripciones idénticas de productos, categorías y títulos.

Por qué el contenido duplicado es malo

El contenido repetido tiene un análogo en el campo de la economía: el sobregiro bancario. Aquí es donde se gasta el llamado presupuesto móvil. Esta es la cantidad de páginas de recursos que un motor de búsqueda puede rastrear en un período de tiempo específico. El recurso es muy valioso y es mejor gastarlo en páginas verdaderamente importantes y relevantes que en decenas de duplicados de texto idéntico.

Por tanto, el contenido duplicado empeora la optimización de los motores de búsqueda. Además, los enlaces naturales se pierden y el contenido de enlaces se distribuye incorrectamente dentro del sitio. Y también se reemplazan páginas verdaderamente relevantes.

Cómo encontrar contenido duplicado en un sitio web (manualmente, programas y servicios)

Existen programas especiales para el análisis de recursos. De estos, los usuarios destacan especialmente Netpeak Spider. Busca copias completas de páginas, coincidencias por título o descripción, o encabezados. Otra opción es Screaming Frog, que tiene una funcionalidad similar y esencialmente se diferencia sólo en la interfaz. También está la aplicación Link Sleuth de Xenu, que funciona de manera similar a un motor de búsqueda y es capaz de buscar duplicados en un sitio de manera bastante eficiente.

Desafortunadamente, no existen herramientas que puedan rastrear completamente todos los textos duplicados. Por lo tanto, lo más probable es que tengas que realizar una verificación manual. Aquí hay una lista de posibles factores que causaron el problema:


Descubrimos cómo encontrar contenido duplicado. Y los mejores ayudantes en la lucha contra esto son los redireccionamientos 301, las etiquetas URL canónicas, las instrucciones en robots.txt y los parámetros Nofollow y Noindex como parte de la metaetiqueta "robots".

Una forma de comprobar rápidamente si hay contenido duplicado en un sitio es mediante una búsqueda avanzada en Yandex o Google. Debe ingresar la dirección del sitio y un fragmento de texto de la página que decidió consultar. También puede utilizar numerosos programas para comprobar la unicidad del texto:

  • Texto.Ru;
  • eTXT Antiplagio;
  • Advego Plagiatus;
  • Ver contenido.

Cómo tratar y limpiar contenido duplicado

El mismo sistema de ayuda de Google da una serie de consejos para evitar que se produzca este problema.

  • 301. Al realizar cambios estructurales en un recurso, debe especificar una redirección 301 en el archivo htaccess.
  • Utilice un único estándar de referencia.
  • El contenido específico de una región se ubica mejor en dominios de nivel superior que en subdominios o subdirectorios.
  • Configure su método de indexación preferido mediante Search Console.
  • No utilices plantillas. En lugar de colocar texto de copyright en cada página, es mejor crear un enlace que conduzca a una página separada con este texto.
  • Al desarrollar nuevas páginas, asegúrese de que no puedan indexarse ​​hasta que estén completamente listas.
  • Comprenda exactamente cómo se muestra su contenido; puede haber diferencias en la visualización en blogs y foros.
  • Si hay muchos artículos similares en el sitio, es mejor combinar su contenido en uno solo o unificar cada uno.

Los motores de búsqueda no imponen ninguna sanción contra los sitios que tienen contenido duplicado por razones técnicas (a diferencia de aquellos que lo hacen deliberadamente para manipular los resultados de la búsqueda o engañar a los visitantes).

Una vez eliminados los duplicados, solo queda eliminarlos de los resultados de búsqueda. Yandex hace esto por sí solo, siempre que el archivo robots.txt esté configurado correctamente. En cuanto a Google: tendrás que configurar las reglas manualmente en Webmaster, en la pestaña "Parámetros de URL".

Conclusión

La lucha contra el contenido duplicado en un sitio web es un aspecto importante de las actividades del propietario de cualquier sitio web. Hay bastantes razones para su aparición y tantas formas de eliminarlo.

Sin embargo, la regla principal sigue siendo: publicar exclusivamente contenido original, independientemente del tipo de sitio. Incluso si se trata de una gran cadena de tiendas con miles de páginas.

RECIBE ANUNCIOS DE PUBLICACIONES SIMILARES A TU CORREO ELECTRÓNICO

Suscríbete y recibe no más de una vez por semana algo interesante del mundo del marketing en Internet, SEO, promoción de sitios web, tiendas online y ganar dinero con sitios web.

Seguramente has escuchado la frase “contenido duplicado” más de una vez y tú, como propietario de un sitio web experimentado, nunca publicarías el mismo contenido dos veces, ¿verdad?

El contenido duplicado se puede comparar con un sobregiro bancario. Sólo entonces estará desperdiciando su valioso presupuesto de rastreo.

El presupuesto de rastreo es la cantidad de páginas de un sitio web que un robot de búsqueda puede rastrear en un período de tiempo determinado. Por eso es tan importante gastarlo en las páginas que necesitamos.

El contenido duplicado, que se manifiesta de diversas formas, puede ser uno de los problemas más esquivos e invisibles que pueden afectar negativamente la clasificación y la promoción de un sitio web. Su apariencia a menudo se asocia con características de la arquitectura del sitio o limitaciones del CMS.

Desafortunadamente, no existe ningún verificador en Google Webmaster que pueda detectar fácilmente contenido duplicado. Incluso las herramientas de terceros más avanzadas no siempre hacen un buen trabajo en esta tarea, especialmente cuando el origen del problema es interno. No se puede evitar la comprobación manual.

Aquí hay una lista con 8 posibles razones para la aparición de páginas duplicadas en el sitio:

Páginas HTTP y HTTPS

Una de las formas más rápidas de comprobar que tiene dos versiones de un sitio disponibles para indexar es intentar acceder a él utilizando los protocolos HTTP y HTTPS. Si se abren ambas versiones, es obvio que su desarrollador cambió el sitio a HTTPS y no configuró una redirección 301 desde la versión HTTP.

Antes de que Google comenzara a alentar activamente a los webmasters a cambiar sus sitios por completo a HTTPS, muchos habilitaban HTTPS solo en ciertas páginas que necesitaban seguridad adicional, como páginas de inicio de sesión o páginas de transacciones. Si el desarrollador utilizó enlaces relativos, cada vez que un robot de búsqueda visita páginas protegidas, se ve obligado a agregar HTTPS a todas las URL, lo que finalmente conduce a páginas duplicadas.

De la misma forma, es necesario comprobar si el sitio tiene dos versiones de páginas, tanto con WWW como sin WWW. Puede resolver este problema configurando una redirección 301 y especificando su dominio preferido (espejo principal) en Google Webmaster.

Sitios web que roban tu contenido

Hasta que exista una legislación para recuperar el contenido robado, sólo hay formas de utilizar el código para dificultar la tarea de los ladrones que intentan hacer pasar su contenido como propio. Para hacer esto, utilice siempre enlaces absolutos en su sitio en lugar de relativos:

Enlaces absolutos: http://seo.artox-media.ru/wiki/dublirovannyi-kontent.html (comienza con el protocolo y contiene el nombre del sitio).
Enlaces relativos:/wiki/dublirovannyi-kontent.html (comienza desde la raíz del sitio o documento actual).

¿Por qué es importante? Cuando utiliza URL relativas, su navegador asume que el enlace apunta a una página en la que ya se encuentra. Algunos desarrolladores prefieren URL relativas porque facilitan el proceso de codificación.

Si un desarrollador no quiere reescribir todo el sitio, se pueden utilizar etiquetas canónicas de autorreferencia. Cuando su contenido se publica en otro sitio, es posible que permanezcan etiquetas canónicas, lo que ayuda a Google a determinar que su sitio es la fuente original del contenido.

Para saber que su contenido ha sido robado, puede utilizar cualquiera de los servicios gratuitos (por ejemplo, Siteliner, Copyscape. Etxt, AdvegoPlagiatus, etc.)

Subdominios abandonados

Digamos que decidió no crear un subdominio y decidió utilizar un subdirectorio en su lugar. O, por ejemplo, ha creado un sitio web completamente nuevo. En cualquier caso, su contenido antiguo puede ser accesible y, además, puede tener un efecto negativo en la clasificación de las páginas nuevas. Para resolver el problema, es mejor utilizar una redirección 301 desde este subdominio a un nuevo sitio/directorio. Esto es especialmente importante si su antiguo recurso tiene una gran masa de enlaces.

Páginas ocultas en construcción.

¿Decidiste actualizar tu diseño? ¿Estás preparando tu sitio web para grandes cambios? Si antes de esto no ha bloqueado la indexación de sus páginas de prueba (y más aún la versión de desarrollo del sitio), entonces no es inmune al hecho de que el robot no las detectará.

Existe la idea errónea de que a nadie se le ocurrirá ingresar alguna URL ficticia de su sitio web http://razrabotka.sait.ru/ en la línea del navegador, si no hay un enlace a ella en ninguna parte del código, parece que esto es así; es simplemente poco realista. ¡Pero eso no es cierto! Google busca e indexa constantemente nuevas páginas web, incluidas las que están en desarrollo. Todo esto puede afectar los resultados del ranking y también engañar a los usuarios.

Esto no sólo causa un daño enorme al sitio en términos de privacidad y seguridad, sino que también puede causar graves daños al presupuesto. Es fácil evitar esto: use la metaetiqueta robots con noindex en todas las páginas de prueba o bloquéelas en el archivo robots.txt.


o

Ambas opciones implican la prohibición de indexar texto y seguir enlaces en la página.

Recuerde que al migrar páginas del modo de desarrollo al modo en vivo, debe eliminar estas directivas de bloqueo del código.

Parámetros generados dinámicamente en URL

La mayoría de las veces, las URL dinámicas se generan en función de los filtros utilizados en el sitio. ¿Cómo son exactamente estas URL?

URL 1: www.shop.com/chocolate/cake/vanilla
URL 2: www.shop.com/chocolate/cake/vanilla%8in
URL 3: www.shop.com/chocolate/cake/vanilla%8in=marble

Este es un ejemplo simple; sin embargo, su CMS puede agregar varias opciones de filtro y generar cadenas de URL innecesariamente largas que pueden estar involucradas en el proceso de rastreo.

De esta forma, Google puede crear e indexar infinitas combinaciones de URL que el usuario ni siquiera solicita.

En este caso, aplique una etiqueta canónica que indique su URL preferida y configure los ajustes de rastreo de URL en Google Webmaster.

Puede omitir este paso y bloquear URL específicas en su archivo robots.txt usando el carácter (*) para evitar que se indexe cualquier elemento dentro del directorio especificado. Por ejemplo: No permitir:/chocolate/pastel/*

Subdirectorios espejo

¿Su empresa opera en varias regiones? Algunas empresas optan por crear una página de destino principal que permite a los usuarios seleccionar la región que mejor les convenga y luego los redirige al subdirectorio adecuado. Por ejemplo:

URL 1: www.wonderfullywhisked.com/fr
URL 2: www.wonderfullywhisked.com/de

Si bien esto puede parecer lógico, considere si realmente existe la necesidad de esta configuración. Después de todo, mientras se dirige a diferentes audiencias, existe la posibilidad de que ambos subdirectorios se dupliquen completamente en contenido. Para resolver este problema, utilice Google Webmaster para configurar la orientación geográfica.

Sindicación de contenidos

La distribución de contenido es la reutilización del mismo contenido en diferentes recursos para promocionar su sitio web/marca/contenido y atraer tráfico adicional.

La distribución es una excelente manera de presentar su sitio a nuevas audiencias, pero vale la pena establecer pautas sobre quién volverá a publicar su contenido.

Lo ideal sería pedir a los editores que utilicen el atributo “rel=canonical” en la página de contenido para indicar a los motores de búsqueda que su sitio web es la fuente original del contenido. Además, también pueden evitar que se indexe el contenido, lo que ayudará a resolver posibles problemas de duplicación en los resultados de búsqueda.

Después de todo, los editores pueden vincularlo al artículo original y citarlo a usted como la fuente original.

contenido relacionado

El contenido similar puede causar tanto daño como el contenido duplicado. La definición de contenido duplicado de Google incluso incluye la frase "sustancialmente similar". Si bien los fragmentos de material pueden diferir en sintaxis, la regla general es que si puedes obtener la misma información de ellos, no hay razón para que ambos existan en un sitio web. En este caso, una gran solución al problema es utilizar una etiqueta canónica o considerar fusionar estos contenidos en uno solo.

conclusiones

Es muy importante controlar la aparición de contenido duplicado en el sitio para evitar agotar su presupuesto de rastreo, ya que esto impide que el robot busque e indexe nuevas páginas que necesita. En este caso, las mejores herramientas de su arsenal son las etiquetas canónicas, las redirecciones 301, los atributos nofollow/noindex en la metaetiqueta "robots" y las directivas en el archivo robots.txt. Trabaje para identificar y eliminar contenido duplicado agregando estos puntos de control a su auditoría SEO.

El contenido duplicado, o simplemente duplicados, son páginas de su sitio que son completamente (duplicados claros) o parcialmente (duplicados difusos) iguales entre sí, pero cada una tiene una URL diferente. Una página puede tener uno o varios duplicados.

¿Cómo aparece el contenido duplicado en un sitio web?

Tanto para las tomas claras como para las poco claras, existen varias razones por las que ocurren. Pueden producirse duplicados claros por los siguientes motivos:

  1. Aparecen debido al CMS del sitio. Por ejemplo, al usar Replytocom en WordPress, al agregar nuevos comentarios, se crean automáticamente nuevas páginas que difieren solo en la URL.
  2. Como resultado de errores del webmaster.
  3. Debido a cambios en la estructura del sitio. Por ejemplo, al implementar una plantilla actualizada con nuevas URL.
  4. Realizado por el propietario del sitio para determinadas funciones. Por ejemplo, páginas con versiones imprimibles del texto.

Es posible que aparezcan duplicados poco claros en su sitio por los siguientes motivos:

¿Por qué el contenido duplicado es perjudicial para un sitio web?
  1. Afecta negativamente la promoción en los resultados de búsqueda. Los robots de búsqueda tienen una actitud negativa hacia el contenido duplicado y pueden bajar sus posiciones en los resultados de búsqueda debido a la falta de unicidad y, por tanto, de utilidad para el cliente. No tiene sentido leer lo mismo en diferentes páginas del sitio.
  2. Puede reemplazar páginas verdaderamente relevantes. El robot puede optar por devolver una página duplicada si considera que su contenido es más relevante para la solicitud. Al mismo tiempo, el duplicado, por regla general, tiene indicadores más bajos de factores de comportamiento y/o masa de enlaces que la página que usted está promocionando intencionalmente. Esto significa que el doblete se mostrará en peores posiciones.
  3. Conduce a la pérdida de vínculos naturales. Cuando el usuario hace un enlace no al prototipo, sino a un duplicado.
  4. Promueve la distribución incorrecta del peso del enlace interno. Los duplicados quitan parte del peso de las páginas promocionadas, lo que también dificulta la promoción en los motores de búsqueda.
¿Cómo comprobar si tienes duplicados o no?

Para saber si las páginas del sitio están duplicadas o no, existen varias formas.


¿Encontraste algún duplicado? Leemos cómo neutralizarlos:
  1. Redirección 301 Este método se considera el más confiable para deshacerse de duplicados innecesarios en su sitio web. La esencia del método es redirigir el robot de búsqueda desde la página duplicada a la principal. De este modo, el robot se salta el doble y trabaja sólo con la página requerida del sitio. Con el tiempo, después de configurar la redirección 301, las páginas duplicadas se atascan y salen del índice.
  2. Etiqueta . Aquí le indicamos al buscador qué página es nuestra principal, destinada a la indexación. Para hacer esto, en cada toma debes ingresar un código especial para el robot de búsqueda. , que contendrá la dirección de la página principal. Para evitar realizar este trabajo manualmente, existen complementos especiales.
  3. No permitir en robots.txt. El archivo robots.txt es una especie de instrucción para el robot de búsqueda, que indica qué páginas deben indexarse ​​y cuáles no. Para prohibir la indexación y combatir los duplicados, se utiliza la directiva Disallow. Aquí, como cuando se configura una redirección 301, es importante configurar correctamente la prohibición.
¿Cómo eliminar duplicados del índice del motor de búsqueda?

En cuanto a Yandex, elimina de forma independiente los duplicados del índice si el archivo robots.txt está configurado correctamente. Pero para Google es necesario establecer reglas en la pestaña "Parámetros de URL" a través de Google Webmaster.

Si tienes alguna dificultad para comprobar y eliminar contenido duplicado, siempre puedes contactar con nuestros especialistas. Encontraremos todos los elementos sospechosos, configuraremos una redirección 301, robots.txt, rel="canonical", realizaremos configuraciones en Google. En general, realizaremos todo el trabajo para garantizar que su sitio web funcione de manera efectiva.




Arriba