Qué incluir en robots txt. Cómo editar el archivo txt de robots

Si estás leyendo este artículo, tienes problemas para escribir el archivo robots.txt correcto. Quizás esté familiarizado con los conceptos básicos, haya visto varias instrucciones de este tipo para dispositivos de búsqueda, conozca el principio de compilación o incluso tenga amplia experiencia en la compilación de este archivo. Leer el artículo será útil e interesante para todos. Hoy veremos las reglas, los errores y la "buena forma" de crear los robots adecuados, así como su corrección cuando se utiliza el CMS popular. No hablaremos de lo básico. Todo el mundo debería conocer todas las reglas básicas para crear y ajustar robots. Y si no los conoce, primero debe ir a la Ayuda de Yandex, donde leerá en detalle cómo crear robots.txt.

Además, si está buscando cómo configurar un archivo robots.txt para pasar de HTTP a HTTPS, aquí lo tiene: Configurar un certificado SSL

Entonces, ¡vamos!

Los robots se pueden dividir en dos grupos: “arañas” y “pájaros carpinteros”.

Las arañas siguen los enlaces del sitio, a lo largo de su estructura, recopilando todos los datos sobre el contenido del sitio cada vez más profundamente. Los pájaros carpinteros tocan las páginas de un sitio para comprobar si funcionan, si los usuarios las ven y si la página no da un error 404. El artículo se centrará en un robot araña que, al seguir enlaces internos, se guía por las reglas y prohibiciones especificadas en el archivo robots.txt.

A continuación describiré los errores de configuración comunes de robots.txt que yo mismo he visto y le diré cómo se pueden evitar.

Errores al compilar robots.txt para un sitio web que hemos encontrado

Instrucciones confusas

Tuve el honor de ver muchos archivos de robots en mi propia experiencia, pero también los había absolutamente fantásticos e imposibles. Por ejemplo:

Agente de usuario: /
No permitir: Yandex

Espero que todos sepan que es correcto escribir así:

Agente de usuario: Yandex
No permitir: /

Especificación de varias reglas en una declaración

También tuve la suerte de ver esta desgracia en mi vida:

No permitir: /wp-admin/ /wp-includes/ /wp-feed/

En este caso, no está claro cómo se comportará tal o cual robot de búsqueda. Uno puede aceptar esta regla juntos - Disallow: /wp-admin/wp-includes/wp-feed/ , otro puede tomar la primera regla (/wp-admin/) o la última (/wp-feed/), y algunos No lo aceptaré en absoluto en esta línea. Por lo tanto, no nos arriesgamos y escribimos las reglas línea por línea, en instrucciones separadas:

No permitir: /wp-admin/
No permitir: /wp-incluye/
No permitir: /wp-feed/

Errores en el nombre del archivo

En mi vida también ha habido algunos casos muy exóticos. Quería ver los robots del sitio, así que entré http://site.ru/robots.txt, ¡y la respuesta fue un higo! “Probablemente no haya ningún expediente”, pensé. Pero cuando entré en la estructura del sitio, ¡me sorprendió! Había diferentes grafías:

  • R obots.txt (en mayúscula);
  • robot.txt (sin s);
  • ROBOTS.TXT (!CAPSOM!).

La ortografía correcta es, naturalmente, "robots.txt".

Valor vacío en User-agent

Muy a menudo, en sitios sin terminar se encontró la siguiente construcción:

Agente de usuario:
Rechazar:

¿Para quién es? No está claro. Lo único que queda claro de esto es que este mensaje no llegó a ningún robot. Introduzca correctamente el nombre del robot al que están asignadas las siguientes instrucciones:

Agente de usuario: robot de Google
Rechazar:

Interacciones entre las instrucciones No permitir y Permitir

Muy a menudo veo redacción errónea de instrucciones que permiten y prohíben:

Agente de usuario: Yandex
No permitir: /admin/
No permitir: /herramientas/
Permitir: /kartinki/

Primero, inmediatamente después del agente de usuario debería haber reglas. permisivo paso al robot, y después de todo, las instrucciones Permitir deben ser seguidas por Disallow:

Agente de usuario: Yandex
Permitir: /kartinki/
No permitir: /admin/
No permitir: /herramientas/

Requisitos para redactar la directiva de acogida

Algunas personas copian la URL del sitio y, descaradamente, sin mirar, la pegan en la directiva Host junto con http:

¡Grave error! No es necesario especificar el protocolo HTTP. Pero el protocolo HTTPS seguro en robots.txt es necesario, porque... muestra al robot cómo posicionar el recurso correctamente:

Además, no debería incluir varias directivas de Host en robots.txt. Seguirá leyendo y percibiendo sólo el primero. Entonces colocamos Host en la sección Yandex después de todas las reglas:

Agente de usuario: Yandex
No permitir: /admin/
No permitir: /herramientas/
Anfitrión: sitio web

Recuerde: ¡las directivas del archivo robots.txt que estén compuestas incorrectamente se ignoran! Por ejemplo:

  • Anfitrión: www.-yourresurs.ru
  • Anfitrión: www.yourresource-.ru
  • Anfitrión: www.yourresurs.ru:100000
  • Anfitrión: www.your_resource.ru
  • Anfitrión: .your-resource.ru:8000
  • Anfitrión: your..resource.ru
  • Anfitrión: your-resource.ru.
  • Anfitrión: 215.160.195.128
  • Anfitrión: www.yourresurs.ru:8080/
  • Anfitrión: www.pervyresurs.ru www.segundoresurs.ru
  • Anfitrión: www.first Resource.ru, www.Second Resource.ru

Es una buena práctica crear un archivo robots.txt.

En esta sección veremos el "mal estilo" de crear robots.txt. Cada código o marcado tiene sus propias reglas escritas o tácitas, que pocas personas siguen y que pueden tener consecuencias desastrosas. En el caso de un archivo de prohibición de indexación, pueden surgir malentendidos entre el robot del buscador y el archivo, o que el nuevo (próximo) programador del proyecto no comprenda o tarde mucho en comprender lo que se ha escrito. Por tanto, evitamos los siguientes malentendidos desagradables.

Comentario de una línea con reglas e instrucciones.

En general, este tipo de grabación es posible, pero no aconsejable:

No permitir: /admin/ #evitar que los robots indexen el directorio de administración

Anteriormente, algunos sistemas no entendían dichas cadenas. Ahora bien, creo que los motores de búsqueda se han adaptado a muchas de las cosas desagradables que hacen los webmasters, pero es mejor no arriesgarse y escribir un comentario en una nueva línea.

Redirigir una página a un error 404:

Hay situaciones en las que, al desarrollar un nuevo proyecto, el programador se olvida del archivo robots y cuando una "araña" accede al sitio, y esto seguramente sucederá sin este archivo, el recurso lo redirige a otra página. Sucede que se produce una redirección tan peculiar sin devolver 404 No encontrado. Para evitar esto, le aconsejo que coloque el archivo robots.txt correcto en la raíz del sitio. También es recomendable no ser perezoso y escribir en él:

Agente de usuario: *
Rechazar:

Este es el archivo robots.txt abierto. Si necesita bloquear la indexación de un sitio en el momento del desarrollo o en situaciones actuales, entonces, naturalmente, usamos:

Agente de usuario: *
No permitir: /

Letras mayúsculas en instrucciones.

USUARIO-AGENTE: YANDEX
NO PERMITIR: /ADMIN/

No hay comentarios aquí. ¡Solo sé humano! Escribe correctamente:

Agente de usuario: Yandex
No permitir: /admin/

Listar todos los archivos en un directorio

A veces, cuando estaba optimizando, me encontré con algo como la siguiente construcción:

Agente de usuario: Yandex
No permitir: /admin/backup/
No permitir: /admin/cache/
No permitir: /admin/components/
No permitir: /admin/modules/
No permitir: /admin/themes/
No permitir: /admin/wizards/

Y así el programador anterior cerró todas las carpetas anidadas de administración. Aunque bastaba con simplemente escribir:

Agente de usuario: Yandex
No permitir: /admin/

Si realmente necesita abrir algunos directorios dentro de una carpeta cerrada, utilice este método:

Agente de usuario: Yandex
Permitir: /admin/css/
Permitir: /admin/images/
No permitir: /admin/

Escribir directivas adicionales en secciones

Durante algún tiempo hubo debates en nuestra empresa: ¿dónde colocar la directiva Host? ¿En qué sección: en la sección general o después de todas las reglas al final del archivo? Nuestros empleados asistieron a cursos cualificados en Unibrains, Top Expert, etc., aportando diferentes conocimientos y visiones sobre este tema. Parece que nadie sabía cómo redactar robots.txt y dónde escribir esta directiva correctamente. De hecho, algunos robots pueden reaccionar incorrectamente al uso de directivas adicionales, lo que significa que no debes escribirlas en las secciones * - (para todos). Escriba Host en la sección del robot Yandex:

Agente de usuario: Yandex
No permitir: /admin/
Anfitrión: sitio web
Agente de usuario: *
No permitir: /admin/

Falta de instrucción No permitir

Esta instrucción es obligatoria y, debido a su ausencia, el robot puede malinterpretarla.

Agente de usuario: Yandex
Anfitrión: sitio web

Escribimos correctamente:

Agente de usuario: Yandex
No permitir: /wp-admin/
Anfitrión: sitio web

Sin barras al especificar un directorio

Realicé un experimento para demostrar que el robot percibe la ausencia de barras en las instrucciones como un error.

Si queremos cerrar algo, ¡escribimos una regla solo con barras!

Agente de usuario: Yandex
No permitir: /blog/

Cómo y dónde registrar la sección Sitemap en robots

Muy a menudo me he encontrado con una interpretación incorrecta de la línea del mapa del sitio. El hecho es que intentaban constantemente adjuntarlo en alguna parte: o se ingresó para cada agente, o no sé cómo ni dónde colocarlo, pero se ingresó en un solo agente después de todas las instrucciones para el bot. Sería correcto escribir el Sitemap en robots.txt después de todos los agentes al final del archivo, separando esta regla con una línea vacía después de la última instrucción para el último robot:

Agente de usuario: *...
No permitir: /postednee-pravilo/
Mapa del sitio: http://mysite.ru/sitemap.xml

Funciones de robots.txt que muchos no utilizan

En este párrafo, veremos funciones y comandos adicionales para el archivo robots.txt, que son poco utilizados por webmasters, optimizadores y programadores. No discutiré aquí las capacidades de Crawl-delay, Clean-param y otras directivas y reglas que ya están disponibles en help.yandex.

Interacción entre páginas normales y páginas de Google AdWords

Si desea colocar publicidad de Google en algunas de sus páginas de Internet, pero no desea que estas páginas estén en el índice de Google, debe utilizar el agente Mediapartners-Google. Para hacer esto, bloqueamos páginas en Google y las abrimos (o el sitio completo) para publicidad:

Agente de usuario: robot de Google
No permitir: /admin/
No permitir: /buscar/
Agente de usuario: Mediapartners-Google
Permitir: /reklamnaya-stranica/

Pero recuerde que la sección Mediapartners-Google debe ubicarse después de todos los agentes, incluido "*" - para todos. De lo contrario resultará que primero permites que el bot pase por estas páginas, luego lo niegas y al final no hará nada.

Interacción entre páginas normales y páginas de Yandex Direct

Lo mismo que con Google AdWords. Cerramos lo que no necesitamos y abrimos lo que necesitamos para publicidad en el agente YaDirectBot:

Agente de usuario: *
No permitir: /admin/
No permitir: /buscar/
No permitir: /reklamnaya-stranica/
Agente de usuario: YaDirectBot
Permitir: /reklamnaya-stranica/

Nuevamente, ¡no olvides colocar esta sección debajo de todas las demás! Puedes colocar YaDirectBot y Mediapartners-Google juntos en la parte inferior, antes de las instrucciones para el mapa del sitio.

Abrir imágenes para indexar en Yandex Images y Google Images

Para que sus imágenes en el sitio se incluyan en las bases de datos de imágenes de Yandex y Google, registramos a los siguientes agentes:

Agente de usuario: Imagen del robot de Google
Permitir: /temas/imágenes/
Agente de usuario: YandexImages
Permitir: /temas/imágenes/

No olvide incluir el atributo alt correcto en sus imágenes para que sus imágenes puedan encontrarse en las búsquedas.

Bloquear parte del texto para que no se indexe

Para empezar, me gustaría llamar su atención sobre el hecho de que este método solo funciona en Yandex y Rambler. ¡Buscar en Google esta etiqueta es un gran problema! Noindex es una etiqueta que bloquea la parte necesaria del contenido para que el robot no la indexe. Es similar a la metaetiqueta noindex, pero está destinada a usarse únicamente en texto. Por lo general, no pueden acceder a los contadores de indexación.

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Phasellus convallis viverra diam sed pretium. Nam ut orci ut arcu ornare pretium ut a diam. Nunc ac tempus ague. Morbi in molestie massa. In hac habitasse platea dictamen. In quis maximus libero. Ut varius dolor et justo hendrerit mollis. Vivamus at semper mi, et hendrerit lacus. Pellantesque quis mollis felis. Etiam eu hendrerit libero.

La etiqueta noindex no es válida y cuando la verifica un validador da un error.Para que pase la verificación, lo disfrazamos de comentario... . ¡Este método funciona!

Dmitri Semenov

lockki.ru, experto independiente

De una forma u otra, el archivo robots.txt debe compilarse según las reglas. Para acelerar la compilación de robots.txt, he preparado una colección de archivos para 22 CMS populares, que solo necesita modificar ligeramente para su sitio.

10 reglas para crear un archivo robots.txt de Dmitry

  1. El archivo debería llamarse robots.txt y nada más.
  2. Debe estar en la raíz del sitio, es decir. vashsite.ru/robots.txt
  3. Cierra todas las secciones técnicas: complementos, panel de administración, etc.
  4. Las reglas están escritas por separado para cada robot, es decir. en la directiva User Agent solo hay 1 robot y no hay enumeraciones.
  5. Si desea asignar reglas para todos los robots, entonces User-agent: *
  6. El host se escribe solo una vez y solo para Yandex, este es el agente de usuario: Yandex
  7. 1 directiva = 1 valor, es decir No permitir: /admin y no No permitir: /admin /manage, etc. en una línea.
  8. No permitir bloquea el acceso, Permitir permite el acceso.
  9. No bloquee la indexación de imágenes.
  10. Cierre las páginas principales duplicadas que genera su CMS.

Vitali Krávchenko

Responsable de la agencia Webline Promotion, optimizador y comercializador de Internet experimentado, amante de los experimentos y las experiencias.

A qué prestar atención al crear su archivo robots.txt

En mi opinión, uno de los errores más comunes es que muchos optimizadores novatos perciben el archivo Robots.txt como una regla para los robots de búsqueda, pero en realidad este archivo es solo una recomendación. En primer lugar, por supuesto, es necesario tener una comprensión clara de la estructura; luego, crear el archivo robots.txt correctamente será mucho más fácil. Señalar con el dedo al cielo puede causar muchos problemas con la indexación y salvar el sitio de la posibilidad de mejorar su rendimiento en los capítulos del motor de búsqueda. Si el sitio ya no es joven y se mantiene estable en el índice del motor de búsqueda, al compilar el archivo, asegúrese de analizar las páginas indexadas. De lo contrario, debe identificar las páginas y archivos privados y del sistema que deben cerrarse. Y, por supuesto, es importante comprobar si el motor de búsqueda realmente percibe su archivo o no. Muy a menudo, el factor humano o la falta de conocimientos necesarios incide muy negativamente en el proceso de promoción. Si está supervisando el trabajo de un optimizador novato, siempre debe verificar lo que se ha hecho en este archivo antes de publicarlo.

Desde mi experiencia puedo notar un cierto algoritmo:

  1. Definimos páginas funcionales estáticas (panel de administración, carritos de compras, páginas de inicio de sesión, página de recordatorio de contraseña, etc.): creamos una lista.
  2. Definimos páginas basura dinámicas y estándar (páginas de impresión, páginas de comparación, conjuntos de filtros no promocionados, etc.).
  3. Definimos carpetas con archivos e imágenes que no deben indexarse.
  4. Generando el archivo Robots.txt
Con la preparación adecuada de este archivo, se obtiene una buena indexación, una percepción correcta del sitio por parte de los robots, una distribución correcta del peso y, por supuesto, más trabajo, posiciones y tráfico a las páginas que necesitamos.

La indexación correcta de las páginas de un sitio web en los motores de búsqueda es una de las tareas importantes a las que se enfrenta el propietario del recurso. La inclusión de páginas innecesarias en el índice puede provocar que los documentos sean degradados en los resultados de búsqueda. Para resolver estos problemas, el consorcio W3C adoptó el estándar de excepción para robots el 30 de enero de 1994: robots.txt.

¿Qué es Robots.txt?

Robots.txt es un archivo de texto en el sitio que contiene instrucciones para los robots sobre qué páginas pueden indexarse ​​y cuáles no. Pero estas no son instrucciones directas para los motores de búsqueda; más bien, las instrucciones son de carácter informativo, por ejemplo, como escribe Google, si hay enlaces externos al sitio, la página será indexada.

En la ilustración se puede ver la indexación de un recurso sin el archivo Robots.txt y con él.

Qué debería bloquearse para la indexación:

  • páginas de servicio del sitio
  • documentos duplicados
  • páginas con datos privados
  • resultado de búsqueda de recursos
  • ordenar páginas
  • páginas de inicio de sesión y registro
  • comparaciones de productos

¿Cómo crear y agregar Robots.txt al sitio?

Robots.txt es un archivo de texto sin formato que se puede crear en el Bloc de notas siguiendo la sintaxis estándar que se describe a continuación. Sólo se necesita un archivo de este tipo para un sitio.

El archivo debe agregarse al directorio raíz del sitio y debe estar disponible en: http://www.site.ru/robots.txt

Sintaxis del archivo robots.txt

Las instrucciones para los robots de búsqueda se especifican mediante directivas con varios parámetros.

Directiva usuario-agente

Con esta directiva, puede especificar para qué robot de motor de búsqueda se especificarán las siguientes recomendaciones. El archivo robots debe comenzar con esta directiva. Oficialmente hay 302 robots de este tipo en la World Wide Web, pero si no desea enumerarlos todos, puede utilizar la siguiente línea:

Donde * es un carácter especial para designar cualquier robot.

Lista de robots de búsqueda populares:

  • Googlebot es el robot principal de Google;
  • YandexBot es el principal robot de indexación;
  • Googlebot-Image - robot de imágenes;
  • YandexImages: robot de indexación Yandex.Images;
  • Yandex Metrika - robot Yandex.Metrica;
  • Yandex Market: robot Yandex.Market;
  • Googlebot-Mobile es un indexador de versiones móviles.

Directivas no permitir y permitir

Con estas directivas, puede especificar qué secciones o archivos se pueden indexar y cuáles no.

Rechazar- directiva para prohibir la indexación de documentos en el recurso. La sintaxis de la directiva es la siguiente:

No permitir: /sitio/

En este ejemplo, los motores de búsqueda bloquearon la indexación de todas las páginas de la sección site.ru/site/.

Nota: Si esta directiva se especifica vacía, significa que todo el sitio está abierto para indexación. Si especifica No permitir: /- esto bloqueará la indexación de todo el sitio.

  • Para prohibir una carpeta de sitio, especifique lo siguiente:
    No permitir: /carpeta/
  • Para prohibir solo un archivo necesitas escribir:
    No permitir: /folder/img.jpg
  • Si desea restringir archivos de solo una determinada resolución:
    No permitir: /*.css$
  • Permitir, por otro lado, es una instrucción permisiva para la indexación.
    Agente de usuario: *
    Permitir: /sitio
    No permitir: /

    Esta instrucción prohíbe indexar todo el sitio, con excepción de la carpeta del sitio.

Directiva de mapas del sitio

Si el sitio tiene un archivo sitemap.xml que describe la estructura del sitio, la ruta al mismo se puede especificar en robots.txt utilizando la directiva Sitemap. Si hay varios archivos de este tipo, puede enumerarlos en robots:

Agente de usuario: *
No permitir: /sitio/
Permitir: /
Mapa del sitio: http://site.com/sitemap1.xml
Mapa del sitio: http://site.com/sitemap2.xml

La directiva se puede especificar en cualquiera de las instrucciones de cualquier robot.

Directiva del anfitrión

El host es una instrucción directa para que el robot Yandex indique el espejo principal del sitio. Esta directiva es necesaria si el sitio tiene varios dominios a través de los cuales es accesible. Debe especificar Host en la sección de robots Yandex:

Agente de usuario: Yandex
No permitir: /sitio/
Anfitrión: sitio.ru

Nota: Si el espejo principal del sitio es un dominio con protocolo https, entonces se debe especificar en los robots de esta manera:
Anfitrión: https://site.ru.

En los robots, la directiva Host se tiene en cuenta sólo una vez. Si hay 2 directivas HOST en el archivo, los robots de Yandex solo tendrán en cuenta la primera.

Directiva de parámetros limpios

Clean-param permite prohibir la indexación de páginas del sitio generadas con parámetros dinámicos. Dichas páginas pueden contener el mismo contenido, que será duplicado para los motores de búsqueda y puede dar lugar a una clasificación más baja del sitio.

La directiva Clean-param tiene la siguiente sintaxis:

Clean-param: p1[&p2&p3&p4&..&pn] [Ruta a páginas dinámicas]

Veamos un ejemplo: el sitio tiene páginas dinámicas:

  • https://site.ru/promo-odezhda/polo.html?kol_from=&price_to=&color=7
  • https://site.ru/promo-odezhda/polo.html?kol_from=100&price_to=&color=7

Para excluir dichas páginas del índice, debe configurar la directiva de la siguiente manera:

Clean-param: kol_from1&price_to2&pcolor /polo.html # solo para polo.html
o
Clean-param: kol_from1&price_to2&pcolor / # para todas las páginas del sitio

Directiva de retraso de rastreo

Si los robots de los motores de búsqueda visitan un recurso con demasiada frecuencia, esto puede afectar la carga en el servidor (esto es importante para recursos con una gran cantidad de páginas). Para reducir la carga en el servidor, puede utilizar la directiva Crawl-delay.

El parámetro de retraso de rastreo es el tiempo en segundos, lo que indica a los robots que las páginas deben descargarse del sitio no más de una vez en el período especificado.

Ejemplo de uso de la directiva Crawl-delay:

Agente de usuario: *
No permitir: /sitio
Retraso de rastreo: 4

Características del archivo Robots.txt

  • Todas las directivas se especifican en una nueva línea y las directivas no deben aparecer en la misma línea.
  • La directiva no debe ir precedida de ningún otro carácter ( incluyendo el espacio)
  • Los parámetros de la directiva deben especificarse en una línea.
  • Las reglas en robots se indican de la siguiente forma: [Nombre de directiva]:[espacio opcional][valor][espacio opcional]
  • No es necesario especificar los parámetros entre comillas u otros caracteres.
  • No debe utilizar ";" después de las directivas.
  • Una línea vacía se interpreta como el final de la directiva User-agent si no hay una línea vacía antes del siguiente User-agent, entonces se puede ignorar.
  • En los robots, puede especificar comentarios después del signo almohadilla # (incluso si el comentario se mueve a la línea siguiente, también debe colocar un # en la línea siguiente)
  • Robots.txt no distingue entre mayúsculas y minúsculas
  • Si el archivo de robots pesa más de 32 KB o por alguna razón es inaccesible o está vacío, se percibe como No permitido: (todo se puede indexar)
  • En las directivas "Permitir" y "No permitir", puede especificar solo 1 parámetro
  • En las directivas "Permitir" y "No permitir", el parámetro del directorio del sitio se indica con una barra (por ejemplo, No permitir: /sitio)
  • No se permite el uso del alfabeto cirílico en robots

Caracteres especiales de robots.txt

Al especificar parámetros en las directivas Disallow y Allow, se permite utilizar los caracteres especiales * y $ para especificar expresiones regulares. El símbolo * significa cualquier secuencia de caracteres (incluso vacíos).

Ejemplo de uso:

Agente de usuario: *
No permitir: /store/* .php # no permite "/store/ex.php" y "/store/test/ex1.php"
Disallow: /* tpl # no permite no sólo "/tpl", sino también "/tpl/user"

Por defecto, cada instrucción en robots tiene un carácter especial * al final. Para deshacer un * al final, se utiliza el carácter especial $ (pero no puede deshacer un * colocado explícitamente al final).

Ejemplo de uso de $:

Agente de usuario: *
No permitir: /site$ # no permitido para indexar "/site", pero no permitido para "/ex.css"
Agente de usuario: *
No permitir: /site # tanto "/site" como "/site.css" no están permitidos para la indexación
Agente de usuario: *
No permitir: /site$ # solo se prohíbe la indexación de "/site"
Disallow: /site*$ # igual que "Disallow: /site" no permite tanto /site.css como /site

Características de configurar robots.txt para Yandex

La única peculiaridad de configurar robots para Yandex es la presencia del directorio del Host en las instrucciones. Veamos los robots correctos usando un ejemplo:

Agente de usuario: Yandex
No permitir: /sitio
No permitir: /admin
No permitir: /usuarios
No permitir: */plantillas
No permitir: */css
Anfitrión: www.site.com

En este caso, la directiva Host indica a los robots Yandex que el espejo principal del sitio es www.site.com (pero esta directiva tiene un carácter consultivo).

Características de configurar robots.txt para Google

Para Google, la única peculiaridad es que la propia empresa recomienda no ocultar archivos con estilos CSS y scripts JS a los robots de búsqueda. En este caso, el robot quedará así:

Agente de usuario: robot de Google
No permitir: /sitio
No permitir: /admin
No permitir: /usuarios
No permitir: */plantillas
Permitir: *.css
Permitir: *.js
Anfitrión: www.site.com

El uso de directivas Permitir, hojas de estilo y scripts están disponibles para los robots de Google y no serán indexados por el motor de búsqueda.

Comprobando que los robots están configurados correctamente

Puede comprobar si hay errores en el archivo robots.txt utilizando la herramienta en el panel Yandex.Webmaster:


También puede utilizar esta herramienta para comprobar si las páginas están permitidas o prohibidas para la indexación:


Otra herramienta para verificar la corrección de los robots es la "Herramienta de verificación de archivos Robots.txt" en el panel de Google Search Console:


Pero esta herramienta sólo está disponible si el sitio se agrega al panel para webmasters de Google.

Conclusión

Robots.txt es una herramienta importante para gestionar la indexación de sitios por parte de los motores de búsqueda. Es muy importante mantenerlo actualizado, y no olvidar abrir los documentos necesarios para la indexación y cerrar aquellas páginas que puedan perjudicar la buena clasificación del recurso en los resultados de búsqueda.

Ejemplo de configuración de robots para WordPress

El archivo robots.txt correcto para Wordpress debe compilarse de esta manera (no es necesario colocar todo lo especificado en los comentarios):

Agente de usuario: Yandex



Anfitrión: www.site.ru

Agente de usuario: robot de Google
No permitir: /cgi-bin # carpeta de servicio para almacenar scripts del servidor
No permitir: /? # todos los parámetros de solicitud en la página principal
No permitir: /wp- # archivos WP: /wp-json/, /wp-includes, /wp-content/plugins
No permitir: *?s= # resultados de búsqueda
No permitir: /buscar # resultados de búsqueda
No permitir: */página/ # páginas de paginación
No permitir: /*print= # páginas para imprimir
Permitir: *.css # abrir todos los archivos de estilo
Permitir: *.js # abrir todo con scripts js

Agente de usuario: *
No permitir: /cgi-bin # carpeta de servicio para almacenar scripts del servidor
No permitir: /? # todos los parámetros de solicitud en la página principal
No permitir: /wp- # archivos WP: /wp-json/, /wp-includes, /wp-content/plugins
No permitir: *?s= # resultados de búsqueda
No permitir: /buscar # resultados de búsqueda
No permitir: */página/ # páginas de paginación
No permitir: /*print= # páginas para imprimir


Mapa del sitio: http://site.ru/sitemap1.xml

Ejemplo de configuración de robots para Bitrix

Si el sitio se ejecuta en el motor Bitrix, pueden surgir los siguientes problemas:

  • acceder a los resultados de búsqueda de una gran cantidad de páginas de servicios;
  • indexar páginas de sitios duplicadas.

Para evitar problemas que puedan afectar la posición del sitio en los resultados de búsqueda, debe configurar correctamente el archivo robots.txt. A continuación se muestra un ejemplo de robots.txt para CMS 1C-Bitrix:

Agente de usuario: Yandex
No permitir: /personal/
No permitir: /buscar/
No permitir: /auth/
No permitir: /bitrix/
No permitir: /iniciar sesión/
No permitir: /*?action=
No permitir: /?mySort=
No permitir: */filtro/
No permitir: */clear/
Permitir: /personal/carrito/
ANFITRIÓN: https://site.ru

Usuario-Agente: *
No permitir: /personal/
No permitir: /buscar/
No permitir: /auth/
No permitir: /bitrix/
No permitir: /iniciar sesión/
No permitir: /*?action=
No permitir: /?mySort=
No permitir: */filtro/
No permitir: */clear/
Permitir: /personal/carrito/

Agente de usuario: robot de Google
No permitir: /personal/
No permitir: /buscar/
No permitir: /auth/
No permitir: /bitrix/
No permitir: /iniciar sesión/
No permitir: /*?action=
No permitir: /?mySort=
No permitir: */filtro/
No permitir: */clear/
Permitir: /bitrix/js/
Permitir: /bitrix/templates/
Permitir: /bitrix/tools/conversion/ajax_counter.php
Permitir: /bitrix/components/main/
Permitir: /bitrix/css/
Permitir: /bitrix/templates/comfer/img/logo.png
Permitir: /personal/carrito/
Mapa del sitio: https://site.ru/sitemap.xml

Ejemplo de configuración de robots para OpenCart

El archivo robots.txt correcto para OpenCart debería estar compuesto de la siguiente manera:

Agente de usuario: Yandex
No permitir: /*ruta=cuenta/
No permitir: /*ruta=afiliado/
No permitir: /*ruta=pagar/
No permitir: /index.php
No permitir: /admin
No permitir: /catalog
No permitir: /descargar
No permitir: /exportar
No permitir: /sistema
No permitir: /*?sort=
No permitir: /*&sort=
No permitir: /*?order=
No permitir: /*&orden=
No permitir: /*?limit=
No permitir: /*&limit=
No permitir: /*?filter_name=
No permitir: /*&filter_name=


No permitir: /*?tracking=
No permitir: /*&seguimiento=
No permitir: /*?page=
No permitir: /*&página=
No permitir: /lista de deseos
No permitir: /iniciar sesión
Anfitrión: sitio.ru

Agente de usuario: robot de Google
No permitir: /*ruta=cuenta/
No permitir: /*ruta=afiliado/
No permitir: /*ruta=pagar/
No permitir: /*ruta=producto/búsqueda
No permitir: /index.php
No permitir: /admin
No permitir: /catalog
No permitir: /descargar
No permitir: /exportar
No permitir: /sistema
No permitir: /*?sort=
No permitir: /*&sort=
No permitir: /*?order=
No permitir: /*&orden=
No permitir: /*?limit=
No permitir: /*&limit=
No permitir: /*?filter_name=
No permitir: /*&filter_name=
No permitir: /*?filter_sub_category=
No permitir: /*&filter_sub_category=
No permitir: /*?filter_description=
No permitir: /*&filter_description=
No permitir: /*?tracking=
No permitir: /*&seguimiento=
No permitir: /*?page=
No permitir: /*&página=
No permitir: /lista de deseos
No permitir: /iniciar sesión
Permitir: *.css
Permitir: *.js

Agente de usuario: *
No permitir: /*ruta=cuenta/
No permitir: /*ruta=afiliado/
No permitir: /*ruta=pagar/
No permitir: /*ruta=producto/búsqueda
No permitir: /index.php
No permitir: /admin
No permitir: /catalog
No permitir: /descargar
No permitir: /exportar
No permitir: /sistema
No permitir: /*?sort=
No permitir: /*&sort=
No permitir: /*?order=
No permitir: /*&orden=
No permitir: /*?limit=
No permitir: /*&limit=
No permitir: /*?filter_name=
No permitir: /*&filter_name=
No permitir: /*?filter_sub_category=
No permitir: /*&filter_sub_category=
No permitir: /*?filter_description=
No permitir: /*&filter_description=
No permitir: /*?tracking=
No permitir: /*&seguimiento=
No permitir: /*?page=
No permitir: /*&página=
No permitir: /lista de deseos
No permitir: /iniciar sesión

Mapa del sitio: http://site.ru/sitemap.xml

Ejemplo de configuración de robots para Umi.CMS

El archivo robots.txt correcto para Umi CMS debe compilarse de esta manera (en este caso no debería haber ningún problema con páginas duplicadas):

Agente de usuario: Yandex
No permitir: /?
No permitir: /emarket/basket
No permitir: /go_out.php
No permitir: /images
No permitir: /archivos
No permitir: /usuarios
No permitir: /admin
No permitir: /buscar
No permitir: /install-temp
No permitir: /install-static
No permitir: /install-libs
Anfitrión: sitio.ru

Agente de usuario: robot de Google
No permitir: /?
No permitir: /emarket/addToCompare
No permitir: /emarket/basket
No permitir: /go_out.php
No permitir: /images
No permitir: /archivos
No permitir: /usuarios
No permitir: /admin
No permitir: /buscar
No permitir: /install-temp
No permitir: /install-static
No permitir: /install-libs
Permitir: *.css
Permitir: *.js

Usuario-Agente: *
No permitir: /?
No permitir: /emarket/addToCompare
No permitir: /emarket/basket
No permitir: /go_out.php
No permitir: /images
No permitir: /archivos
No permitir: /usuarios
No permitir: /admin
No permitir: /buscar
No permitir: /install-temp
No permitir: /install-static
No permitir: /install-libs

Mapa del sitio: http://site.ru/sitemap.xml

Ejemplo de configuración de robots para Joomla

El archivo robots.txt correcto para Joomla debería estar compuesto así:

Agente de usuario: Yandex
No permitir: /administrador/
No permitir: /caché/
No permitir: /componentes/
No permitir: /componente/
No permitir: /incluye/
No permitir: /instalación/
No permitir: /idioma/
No permitir: /bibliotecas/
No permitir: /media/
No permitir: /módulos/
No permitir: /complementos/
No permitir: /plantillas/
No permitir: /tmp/
No permitir: /*?start=*
No permitir: /xmlrpc/
Anfitrión: www.site.ru

Agente de usuario: robot de Google
No permitir: /administrador/
No permitir: /caché/
No permitir: /componentes/
No permitir: /componente/
No permitir: /incluye/
No permitir: /instalación/
No permitir: /idioma/
No permitir: /bibliotecas/
No permitir: /media/
No permitir: /módulos/
No permitir: /complementos/
No permitir: /plantillas/
No permitir: /tmp/
No permitir: /*?start=*
No permitir: /xmlrpc/
Permitir: *.css
Permitir: *.js

Agente de usuario: *
No permitir: /administrador/
No permitir: /caché/
No permitir: /componentes/
No permitir: /componente/
No permitir: /incluye/
No permitir: /instalación/
No permitir: /idioma/
No permitir: /bibliotecas/
No permitir: /media/
No permitir: /módulos/
No permitir: /complementos/
No permitir: /plantillas/
No permitir: /tmp/
No permitir: /*?start=*
No permitir: /xmlrpc/

Mapa del sitio: http://www.site.ru/sitemap.xml

Robots.txt es un archivo de texto que contiene parámetros de indexación de sitios para robots de motores de búsqueda.

Yandex admite las siguientes directivas:

Directiva ¿Qué hace?
Agente de usuario *
Rechazar
Mapa del sitio
parámetro limpio
Permitir
retraso de rastreo
Directiva ¿Qué hace?
Agente de usuario * Indica un robot al que se aplican las reglas enumeradas en robots.txt.
Rechazar Prohíbe la indexación de secciones o páginas individuales del sitio.
Mapa del sitio Especifica la ruta al archivo Sitemap que se encuentra en el sitio.
parámetro limpio Indica al robot que la URL de la página contiene parámetros (por ejemplo, etiquetas UTM) que no es necesario tener en cuenta al indexar.
Permitir Permite la indexación de secciones o páginas individuales del sitio.
retraso de rastreo Establece el período de tiempo mínimo (en segundos) para el robot entre terminar de cargar una página y comenzar a cargar la siguiente.

*Directiva obligatoria.

Las directivas más comunes que puede necesitar son Disallow, Sitemap y Clean-param. Por ejemplo:

Agente de usuario: * #especifique para qué robots están instaladas las directivas\nDisallow: /bin/ # prohíbe enlaces del \"carrito de compras\".\nDisallow: /search/ # prohíbe enlaces a páginas integradas en el sitio de búsqueda\nDisallow : /admin / # prohíbe enlaces desde el panel de administración\nSitemap: http://example.com/sitemap # dirige el robot al archivo de mapa del sitio\nClean-param: ref /some_dir/get_book.pl

Los robots de otros motores y servicios de búsqueda pueden interpretar estas directivas de forma diferente.

Nota. El robot tiene en cuenta las mayúsculas y minúsculas al escribir subcadenas (nombre o ruta a un archivo, nombre del robot) y no las tiene en cuenta en los nombres de las directivas.

Usando el alfabeto cirílico

El uso de cirílico está prohibido en el archivo robots.txt y en los encabezados HTTP del servidor.

Para especificar nombres de dominio, utilice Punycode. Especifique las direcciones de las páginas en la codificación que corresponda a la codificación de la estructura del sitio actual.

Ejemplo de archivo robots.txt:

#False:\nAgente de usuario: Yandex\nDisallow: /cart\n\n#Correcto:\nAgente de usuario: Yandex\nDisallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0% B8%D0%BD%D0%B0

Cómo crear robots.txt

Preguntas y respuestas

En Yandex.Webmaster, en la página "Diagnóstico del sitio", aparece el error "El servidor responde con una redirección a la solicitud /robots.txt"

Para que el robot tenga en cuenta un archivo robots.txt, debe estar ubicado en el directorio raíz del sitio y responder con un código HTTP 200. El robot indexador no admite el uso de archivos ubicados en otros sitios.

Puede comprobar la respuesta del servidor y la disponibilidad del archivo robots.txt para el robot utilizando la herramienta Comprobando la respuesta del servidor .

Si su archivo robots.txt redirige a otro archivo robots.txt (por ejemplo, al mover un sitio), agregue el sitio objetivo del redireccionamiento a Yandex.Webmaster y confirme los derechos para administrar el sitio.

Hola, hoy hablaremos sobre cómo crear el texto de Robots correcto y por qué es necesario.

Contenido:


¿Qué es el texto de robots?

En uno de nuestros artículos anteriores, hablamos sobre cómo funcionan los robots de búsqueda. El archivo de texto de robots brinda instrucciones a los robots de búsqueda sobre cómo indexar correctamente su sitio. Usando directivas, puede, por ejemplo, decirle al robot qué páginas o directorios deben indexarse ​​y cuáles no, crear un grupo de espejos para su sitio (si los tiene), especificar la ruta al archivo del mapa del sitio, etc. Se utiliza principalmente para prohibir la indexación de determinadas páginas de un sitio.

Cómo crear el txt de robots correcto

En cualquier editor de texto, cree un archivo llamado robots txt. Luego, utilizando las directivas que se describen a continuación, indique al robot las páginas del sitio que deben agregarse o, por el contrario, eliminarse de los resultados de búsqueda. Una vez que haya creado el archivo, verifíquelo en busca de errores utilizando Yandex Webmaster o Google Search Console.

Coloque el archivo terminado en el directorio raíz de su sitio (donde se encuentra el archivo index.html).


Directiva usuario-agente

Esta es una especie de saludo a los robots de búsqueda.

La línea "User-agent:*" indicará a todos los robots de búsqueda que utilicen las instrucciones contenidas en este archivo. Y, por ejemplo, la línea "Agente de usuario: Yandex" dará instrucciones solo para el robot de búsqueda de Yandex. A continuación se enumeran ejemplos de uso. Los motores de búsqueda también cuentan con robots auxiliares para diferentes categorías. Por ejemplo, YandexNews y Googlebot-News son robots para trabajar con noticias.


Permitir y no permitir directivas

Con la directiva Disallow, usted especifica qué páginas o directorios del sitio tienen prohibido indexarse. Y, en consecuencia, es posible utilizar la directiva Allow.

Ejemplos:
Agente de usuario:*
No permitir: /
Permitir:/catalogo/

Dicho registro informará a todos los robots de búsqueda que de todo el sitio solo pueden indexar el directorio del catálogo.

Por cierto, el símbolo # pretende describir comentarios. Todo lo que sigue a este carácter y hasta el final de la línea no se tiene en cuenta.

Aquí hay un ejemplo texto de robots con instrucciones individuales para diferentes motores de búsqueda:

#permite que el robot indexe todo el sitio excepto la sección de bicicletas
Agente de usuario:*
No permitir: /bicicletas/

#prohíbe que el robot indexe el sitio, excepto la sección con barcos
Agente de usuario: robot de Google
Permitir: /barcos/
Rechazar:/

#prohibirá que todos los demás motores de búsqueda indexen el sitio
Agente de usuario: *
No permitir: /

tenga en cuenta ¡Que no puede haber líneas vacías entre las directivas User-agent, Allow y Disallow!


Caracteres especiales * y $

En las directivas permitir y no permitir, puede utilizar los caracteres especiales * y $ para especificar expresiones regulares. *-selecciona la secuencia especificada

Por ejemplo: #Prohíbe que los robots indexen todas las páginas cuya URL contenga información privada
Agente de usuario:*
No permitir: /*privado

De forma predeterminada, se debe agregar el carácter especial * al final de cada regla. Y para cancelar * al final de la regla, use el símbolo $.

Por ejemplo: # desactiva "/lock"
# pero no desactiva "/lock.html"
Agente de usuario:*
No permitir: /bloquear$
# también desactiva "/lock"
# y "/lock.html"
Agente de usuario:*
No permitir: /bloquear

El carácter especial $ no prohíbe el * especificado al final, es decir:

Agente de usuario:*
No permitir: /bloquear$# solo desactiva "/lock"
No permitir: /bloquear*$# igual que "No permitir: /bloquear"
# deshabilita tanto /lock.html como /lock


Directiva de mapa del sitio

Si está utilizando un mapa del sitio, utilice la directiva del mapa del sitio y especifique la ruta a uno (o varios archivos).

Agente de usuario:*
mapa del sitio: https://site.com/sitemap.xml


Directiva del anfitrión

Si su sitio tiene espejos, entonces, usando esta directiva, un robot especial formará un grupo de espejos de su sitio y solo incluirá el espejo principal en la búsqueda. Esta directiva no garantiza la selección del sitio especificado como espejo principal, pero le otorga alta prioridad a la hora de tomar una decisión.

Ejemplo:

#indicar el espejo principal del sitio

Agente de usuario: Yandex
No permitir:/mg-admin
Anfitrión: https://www.zerkalo.ru

Nota. Esta directiva se utiliza ¡exclusivamente para Yandex! + Solo se procesa una directiva de host para cada archivo robots.txt. Si se especifican varias directivas en el archivo, el robot utiliza la primera.

La directiva del anfitrión debe contener:

  1. Protocolo HTTPS si solo se puede acceder al espejo a través de un canal seguro. Si está utilizando el protocolo HTTP, no es necesario especificarlo.
  2. Un nombre de dominio válido que cumpla con RFC 952 y no sea una dirección IP.
  3. Número de puerto, si es necesario (Host: myhost.ru:8080).


¿Es posible utilizar cirílico en robots txt?

No, no puedes utilizar el alfabeto cirílico. Para especificar nombres de dominio en cirílico, utilice, por ejemplo, este servicio.


Configurando robots txt MogutaCMS

En MogutaCMS, no es necesario completar el archivo robots.txt, porque se completa automáticamente cuando se instala el motor.

Ahora sabe cómo configurar el texto de robots correcto y también sabe cómo usar varias directivas para administrar la indexación de su sitio, y si aún tiene alguna pregunta, estamos listos para responderla en una discusión especial en VK o en los comentarios a continuación. ¡Nos vemos de nuevo!

¡Hola a todos! Hoy me gustaría hablarles de archivo robots.txt. Sí, se ha escrito mucho sobre esto en Internet, pero, para ser honesto, durante mucho tiempo yo mismo no pude entender cómo crear el archivo robots.txt correcto. Terminé haciendo uno y está en todos mis blogs. No noto ningún problema, robots.txt funciona bien.

Robots.txt para WordPress

¿Por qué, de hecho, necesitas robots.txt? La respuesta sigue siendo la misma: . Es decir, compilar robots.txt es una de las partes de la optimización de motores de búsqueda de un sitio (por cierto, muy pronto habrá una lección dedicada a toda la optimización interna de un sitio en WordPress. Por lo tanto, no olvídate de suscribirte a RSS para no perderte materiales interesantes).

Una de las funciones de este archivo es prohibición de indexación páginas web innecesarias. También establece la dirección y establece lo principal. espejo del sitio(sitio con o sin www).

Nota: para los motores de búsqueda, el mismo sitio con www y sin www son sitios completamente diferentes. Pero, al darse cuenta de que el contenido de estos sitios es el mismo, los motores de búsqueda los "pegan". Por lo tanto, es importante registrar el mirror principal del sitio en robots.txt. Para saber cuál es el principal (con www o sin www), simplemente escriba la dirección de su sitio en el navegador, por ejemplo, con www, si automáticamente es redirigido al mismo sitio sin www, entonces el espejo principal de su sitio no tiene www. Espero haberlo explicado correctamente.

Era:

Ahora (después de ir al sitio, www se eliminaron automáticamente y el sitio quedó sin www):

Entonces, este preciado, en mi opinión, robots.txt correctos para WordPress Puedes verlo a continuación.

Correcto para WordPress

Agente de usuario: *
No permitir: /cgi-bin
No permitir: /wp-admin
No permitir: /wp-incluye

No permitir: /wp-content/cache
No permitir: /wp-content/themes
No permitir: /trackback
No permitir: */trackback
No permitir: */*/trackback
No permitir: */*/feed/*/
No permitir: */feed
No permitir: /*?*
No permitir: /etiqueta

Agente de usuario: Yandex
No permitir: /cgi-bin
No permitir: /wp-admin
No permitir: /wp-incluye
No permitir: /wp-content/plugins
No permitir: /wp-content/cache
No permitir: /wp-content/themes
No permitir: /trackback
No permitir: */trackback
No permitir: */*/trackback
No permitir: */*/feed/*/
No permitir: */feed
No permitir: /*?*
No permitir: /etiqueta
Anfitrión: sitio web
Mapa del sitio: https://site/sitemap.xml.gz
Mapa del sitio: https://site/sitemap.xml

Debe copiar todo lo anterior en un documento de texto con la extensión .txt, es decir, de modo que el nombre del archivo sea robots.txt. Puede crear este documento de texto, por ejemplo, utilizando el programa. No lo olvides, por favor cambiar las últimas tres líneas dirección a la dirección de su sitio web. El archivo robots.txt debe estar ubicado en la raíz del blog, es decir, en la misma carpeta donde se encuentran las carpetas wp-content, wp-admin, etc.

Para aquellos que son demasiado vagos para crear este archivo de texto, también pueden simplemente corregir 3 líneas allí.

Me gustaría señalar que no es necesario que se sobrecargue con las partes técnicas que se analizarán a continuación. Les ofrezco “conocimiento”, por así decirlo, una perspectiva general, para que sepan qué se necesita y por qué.

Entonces la línea:

Agente de usuario

establece reglas para algún motor de búsqueda: por ejemplo, “*” (asterisco) indica que las reglas son para todos los motores de búsqueda, y lo que se muestra a continuación

Agente de usuario: Yandex

significa que estas reglas son sólo para Yandex.

Rechazar
Aquí "incluye" secciones que NO necesitan ser indexadas por los motores de búsqueda. Por ejemplo, en una página tengo artículos duplicados (repeticiones) con artículos normales, y la duplicación de páginas tiene un impacto negativo en la promoción en los motores de búsqueda, por lo que es muy deseable que estos sectores se cierren de la indexación, lo cual es qué hacemos usando esta regla:

No permitir: /etiqueta

Entonces, en el archivo robots.txt anterior, casi todas las secciones innecesarias de un sitio de WordPress están cerradas para la indexación, es decir, simplemente deje todo como está.

Anfitrión

Aquí configuramos el espejo principal del sitio, del que hablé justo arriba.

Mapa del sitio

En las dos últimas líneas configuramos la dirección de hasta dos mapas de sitio creados con .

Posibles problemas

Ir a la sección Configuración de indexación -> Análisis de Robots.txt:

Ya allí, haga clic en el botón “Cargar robots.txt desde el sitio” y luego haga clic en el botón “Verificar”:

Si ve algo como el siguiente mensaje, significa que tiene el archivo robots.txt correcto para Yandex:

También puede agregar la dirección de cualquier artículo del sitio a la "Lista de URL" para verificar si el archivo robots.txt prohíbe la indexación de esta página:

Como puede ver, no vemos ninguna prohibición de indexar páginas desde robots.txt, lo que significa que todo está en orden :).

Espero que no tengas más preguntas, como por ejemplo: cómo crear robots.txt o cómo corregir este archivo. En esta lección traté de mostrarte la correcta ejemplo robots.txt:

¡Nos vemos pronto!

PD. Hace poco, ¿qué pasó interesante? 🙂




Arriba