Descubra el número de páginas indexadas. ¿Cómo mejorar y acelerar el proceso de indexación? ¿Cuántas páginas están indexadas?

Instrucciones

Compruebe si el sitio está indexado por el motor de búsqueda de Google analizando las páginas de resultados de búsqueda. Abra en una URL como: www.google.com/search?&q=allinurl:<адрес_сайта>/+sitio:<адрес_сайта>, donde en lugar de un marcador de posición<адрес_сайта>debe sustituir un nombre de dominio que apunte a su sitio. Por ejemplo, si el dominio es codeguru.ru, la URL se verá así: www.google.com/search?&q=allinurl:codeguru.ru/+site:codeguru.ru. Los resultados de la búsqueda en este caso contendrán todas las páginas de la página especificada que están presentes en el índice de Google. El número total de páginas se indicará en la parte superior de la página de resultados de búsqueda. Comparando el número conocido con el número de páginas en los resultados de búsqueda, podemos concluir sobre el nivel del sitio.

Verifique la indexación de su sitio en Google utilizando las herramientas para webmasters. Regístrese en las Herramientas para webmasters de Google en www.google.com/webmasters/tools/. Inicie sesión en el panel de control del servicio. Agregue el sitio al sistema y confirme los derechos para . Ir a la dirección https://www.google.com/webmasters/tools/dashboard.

Determine si el sitio Yandex está indexado analizando los resultados de la búsqueda. Abra una página en su navegador con una dirección como http://yandex.ru/yandsearch?surl=<адрес_сайта>. En lugar de un marcador<адрес_сайта>Debe sustituir el nombre de dominio del sitio que se está analizando en la línea. En la parte superior de la página de resultados de búsqueda se indicará el número total de páginas del sitio conocidas por el motor de búsqueda. Compárelo con el número de páginas del sitio.

Consideremos la cuestión de cómo determinar el número de páginas indexadas en los motores de búsqueda. Esto se puede hacer de diferentes maneras. Puedes leer qué es un índice en el artículo Índice de motores de búsqueda.

La información sobre el número de páginas del índice está abierta y accesible a todos. De modo que cualquier webmaster puede consultar absolutamente cualquier sitio.

1. ¿Cuántas páginas indexa Yandex?

1.1. A través de solicitudes en Yandex

Vamos a la página principal de Yandex (yandex.ru o ya.ru) e ingresamos la siguiente consulta en la búsqueda:

sitio: www.site.ru | url:site.ru o servidor: www.site.ru | url:sitio.ru

En respuesta, Yandex mostrará el número de páginas indexadas:

1.2. A través del panel Yandex Webmaster

El panel webmaster.yandex.ru tiene una pestaña especial para páginas indexadas:

Aquí puede ver el número de páginas conocidas por el robot, el número de páginas excluidas y la fecha de la última visita del robot al sitio. Sin embargo, vale la pena señalar que solo los propietarios de sitios pueden utilizar Yandex Webmaster, ya que se trata de información "privada".

2. ¿Cuántas páginas indexa Google?

2.1. A través de consultas de Google

Al igual que Yandex, Google tiene una consulta especial que muestra todas las páginas conocidas del sitio. Vaya a la página principal de google.ru e ingrese:

sitio:sitio.ru

Esta consulta mostrará todas las páginas conocidas. Para saber qué páginas están incluidas en el llamado "índice principal", debe agregar un signo comercial al final de la solicitud:

sitio:site.ru/&

2.2. A través del Panel para webmasters de Google

en el panel google.com/webmaster Hay una pestaña especial "Índice de Google" -> "Estado de indexación":

Además de los métodos comentados, también existen métodos universales.

3. Métodos universales

3.1. Descubra la indexación a través de servicios especiales.

Llamo servicios especiales a muchos sistemas de análisis diferentes. Por ejemplo, los más populares son:

Aquí puede obtener información sobre el número de páginas indexadas en varios motores de búsqueda a la vez.

Si hay problemas con la indexación, primero debe verificar robots.txt y sitemap.xml.

Cualquier motor de búsqueda tiene una gran base de datos donde enumera todos los sitios y páginas nuevas. Esta base se llama "índice". Hasta que el robot rastree el documento HTML, lo analice y lo agregue al índice, no aparecerá en los resultados de búsqueda. Será posible acceder a él únicamente a través de un enlace.

¿Qué significa "indexar"?

Nadie puede explicarle esto mejor que el especialista en indexación de Yandex:

La indexación es un proceso durante el cual un robot de búsqueda rastrea las páginas de un sitio e incluye (o no incluye) estas páginas en el índice del motor de búsqueda. El robot de búsqueda escanea todo el contenido, realiza análisis semántico del contenido del texto, la calidad de los enlaces y los archivos de audio y video. En base a todo esto, el motor de búsqueda saca conclusiones y coloca el sitio en el ranking.

Mientras el sitio esté fuera del índice, nadie lo sabrá, excepto aquellos a quienes pueda distribuir enlaces directos. Es decir, el recurso está disponible para su visualización, pero no en el motor de búsqueda.

¿Por qué necesitas un índice?

El sitio debe ser visible para poder promocionarse, crecer y desarrollarse. Un recurso web que no aparece en ningún PS es inútil y no beneficia ni a los usuarios ni a su propietario.

En general, aquí tienes el vídeo completo de la escuela para webmasters de Yandex; si lo miras completo, te convertirás prácticamente en un experto en el tema de la indexación:

¿De qué depende la velocidad de indexación?

Los puntos principales que determinan la rapidez con la que su sitio puede llamar la atención de los robots de búsqueda:

  • Antigüedad del dominio (cuanto más antiguo sea el nombre de dominio, más favorables serán los bots).
  • Alojamiento (a PS no le gusta nada el alojamiento gratuito y, a menudo, lo ignora).
  • CMS, limpieza y validez del código.
  • Velocidad de actualización de la página.

¿Qué es un presupuesto de rastreo?

Cada sitio tiene un presupuesto de rastreo, es decir, el número de páginas más allá de las cuales no se puede incluir en el índice. Si la base de conocimientos del sitio tiene 1000 páginas, incluso si tiene diez mil de ellas, solo habrá mil en el índice. El tamaño de este presupuesto depende de qué tan autorizado y útil sea su sitio. Y si tiene un problema tal que las páginas no caen en el índice, entonces, como opción, necesita, por trivial que parezca, mejorar el sitio.

Indexación de sitios

Al crear un nuevo sitio web, debe completar correctamente el archivo robots.txt, que indica a los motores de búsqueda si el recurso se puede indexar, qué páginas rastrear y cuáles no tocar.

El archivo se crea en formato txt y se coloca en la carpeta raíz del sitio. Los robots adecuados son un tema aparte. Este archivo determina principalmente qué y cómo analizarán los bots en su sitio.

Normalmente, los motores de búsqueda tardan entre un par de semanas y un par de meses en evaluar un sitio nuevo e ingresarlo en la base de datos.

Las arañas escanean cuidadosamente cada documento HTML permitido, determinando el tema apropiado para un nuevo recurso joven. Esta acción no se realiza en un día. Con cada nuevo rastreo, el PS agregará más y más documentos HTML a su base de datos. Además, de vez en cuando el contenido será reevaluado, como resultado de lo cual las posiciones de las páginas en los resultados de búsqueda pueden cambiar.

La metaetiqueta robots y parcialmente canónica también ayudan a gestionar la indexación. Al comprobar la estructura y resolver problemas de indexación, siempre debes buscar su presencia.

Google indexa primero las páginas de nivel superior. Cuando es necesario indexar un sitio nuevo con una estructura específica, la página de inicio es la primera página que se indexa. Luego de esto, sin conocer la estructura del sitio, el motor de búsqueda indexará lo que esté más cerca de la barra. Posteriormente se indexan los directorios con dos barras. Esto significa que incluso si los enlaces en el contenido son altos, no necesariamente serán indexados primero. Es importante estructurarlo de manera óptima para que las secciones importantes no estén detrás de demasiadas barras, de lo contrario Google decidirá que se trata de una página de bajo nivel.

Indexación de páginas

Cuando Yandex y Google ya se hayan familiarizado con el sitio y lo hayan "aceptado" en su base de datos de búsqueda, los bots volverán al recurso para escanear materiales nuevos y agregados. Cuanto más frecuente y regularmente se actualice el contenido, más de cerca lo controlarán las arañas.

Dicen que el complemento PDS pinger para la búsqueda de Yandex ayuda a la indexación: https://site.yandex.ru/cms-plugins/. Para hacer esto, primero debe instalar la búsqueda Yandex en su sitio web. Pero no sentí mucho beneficio de ello.

Cuando un recurso está bien indexado, es mucho más fácil mostrar páginas nuevas e individuales en la búsqueda. Sin embargo, el análisis no siempre se realiza de manera uniforme y a la misma velocidad para todos los documentos html actualizados simultáneamente. Las categorías del recurso más visitadas y promocionadas siempre ganan.

¿Qué fuentes de información tienen los motores de búsqueda sobre las URL?

Érase una vez, contraté a un robot rápido para que trabajara con un competidor que no había renovado su dominio, para que lo bajaran en los resultados de búsqueda; esto no dio ningún resultado.

Cómo comprobar la indexación

La verificación de la visibilidad de los documentos html se realiza de manera diferente para Google y Yandex. Pero en general no hay nada complicado. Incluso un principiante puede hacer esto.

Verificación en Yandex

El sistema ofrece tres operadores principales que le permiten comprobar cuántos documentos HTML hay en el índice.

El operador "sitio:" muestra absolutamente todas las páginas de recursos que ya están en la base de datos.

Ingresado en la barra de búsqueda de la siguiente manera: sitio:sitio

El operador “host:” te permite ver páginas indexadas de dominios y subdominios dentro del hosting.

Ingresado en la barra de búsqueda de la siguiente manera: host:sitio

El operador “url:” muestra la página específica solicitada.

Ingresado en la barra de búsqueda de la siguiente manera: url:site/obo-mne

Verificar la indexación con estos comandos siempre brinda resultados precisos y es la forma más sencilla de analizar la visibilidad de un recurso.

cheque de google

PD: Google te permite comprobar la visibilidad de un sitio usando un solo comando como sitio:sitio.

Pero Google tiene una peculiaridad: procesa los comandos de manera diferente con y sin www ingresado. Yandex no hace tal distinción y da absolutamente los mismos resultados, tanto con www registrado como sin él.

La verificación por parte de los operadores es el método más "anticuado", pero para estos fines utilizo el complemento del navegador RDS Bar.

Verificación con webmaster

En los servicios Google Webmaster y Yandex Webmaster también puede ver cuántas páginas hay en la base de datos de PS. Para ello, es necesario estar registrado en estos sistemas y añadirles su sitio web. Puedes acceder a ellos mediante los siguientes enlaces:

http://webmaster.yandex.ru/ - para Yandex.

https://www.google.com/webmasters/- para Google.

Si el texto aún no está en la copia guardada, pero está en la página, entonces se puede encontrar buscando en [este texto] url:site.ru; esto significará que ya ha sido indexado, pero aún no ha ingresado al índice principal

Comprobación masiva de páginas para indexación

Si lo ejecuta, verificar la indexación de todas las páginas es cuestión de tres minutos.

  1. Ir al archivo de distribución
  2. Seleccione todas las URL en la columna URL
  3. Pestaña “Datos” – “Eliminar duplicados”, esto dejará una lista de todas las páginas promocionadas
  4. Comprobamos masivamente las páginas para indexarlas usando Comparser. También puede utilizar el complemento del navegador Winka; puede funcionar con una lista de enlaces de forma aislada de Sapa (llame al menú del complemento; consulte la lista de enlaces).

¿Es posible acelerar la indexación?

Puede influir en la velocidad de carga de documentos HTML mediante robots de búsqueda. Para hacer esto, debe seguir las siguientes recomendaciones:

  • Aumente la cantidad de señales sociales animando a los usuarios a compartir enlaces en sus perfiles. O puede tomar tweets de cuentas reales en Prospero (klout 50+). Si crea su propia lista blanca de Twitter, considere que ha recibido un arma poderosa para acelerar la indexación;
  • Agregue nuevos materiales con más frecuencia;
  • Puede comenzar a utilizar Direct para obtener las consultas más económicas sobre su tema;
  • Ingrese la dirección de la nueva página en addurilki inmediatamente después de su publicación.

Los altos factores de comportamiento en el sitio también tienen un efecto positivo en la velocidad de actualización de la página en la búsqueda. Por tanto, no te olvides de la calidad y utilidad del contenido para las personas. A un sitio que realmente les gusta a los usuarios definitivamente les gustarán los robots de búsqueda.

En general, todo es muy fácil en Google: puede agregar una página al índice en unos minutos escaneándola en el panel para webmasters (rastrear elementos/ver como Googlebot/agregar al índice). De la misma manera, puedes reindexar rápidamente las páginas necesarias.

También escuché historias sobre tipos que enviaron URL a través del correo Yandex para ingresar al índice más rápido. En mi opinión, esto es una tontería.

Si hay un problema real y todos los consejos anteriores no han ayudado, solo queda pasar a la artillería pesada.

  • Configuramos los encabezados Última modificación (para que el robot busque actualizaciones solo los documentos que realmente han cambiado desde su última llamada);
  • Eliminamos la basura del índice del motor de búsqueda (esta basura se puede encontrar usando Comparser);
  • Ocultamos todos los documentos innecesarios/basura del robot;
  • Creamos archivos Sitemap.xml adicionales. Por lo general, los robots leen hasta 50.000 páginas de este archivo; si tiene más páginas, necesitará crear más mapas del sitio;
  • Configurando el servidor.

A veces es necesario evitar que las páginas del sitio web o los enlaces colocados en ellas aparezcan en los resultados de búsqueda. Puede ocultar el contenido del sitio para que no se indexe utilizando el archivo robots.txt, el marcado HTML o la autorización en el sitio.

Prohibición de indexar un sitio, sección o página

Si algunas páginas o secciones del sitio no deben indexarse ​​(por ejemplo, con información privada o confidencial), limite el acceso a ellas de las siguientes maneras:

  • En su archivo robots.txt, especifique la directiva Disallow.
  • En el código HTML de las páginas de su sitio, especifique la metaetiqueta robots con la directiva noindex o none. Para obtener más información, consulte Metaetiqueta de Robots y Encabezado HTTP X-Robots-Tag.
  • Utilice la autorización en el sitio. Recomendamos este método para ocultar la página principal de un sitio de la indexación. Si la página de inicio está prohibida en el archivo robots.txt o con la metaetiqueta noindex, pero los enlaces apuntan a ella, la página puede terminar en los resultados de búsqueda.

Prohibir la indexación del contenido de la página

Ocultar parte del texto de la página de la indexación

En el código HTML de la página, agregue el elemento noindex. Por ejemplo:

El elemento no es sensible al anidamiento; puede ubicarse en cualquier lugar del código HTML de la página. Si necesita que el código del sitio sea válido, puede utilizar una etiqueta en el siguiente formato:

texto que se debe evitar que sea indexadoOcultar un enlace en una página de la indexación

En el código HTML de la página, agregue el atributo al elemento a. Por ejemplo.

Un índice de motor de búsqueda es una base de datos que almacena información sobre documentos web. El propósito de este "almacenamiento" es obvio: utilizando la base de datos, el motor de búsqueda puede calcular de manera rápida y precisa los valores de los factores de clasificación, el valor numérico de la relevancia de la URL para la solicitud del usuario y generar resultados de búsqueda.

Para los especialistas en SEO y propietarios de sitios web, esto significa una cosa: cuántas páginas están indexadas, cuántos documentos se pueden encontrar en los resultados de búsqueda para consultas específicas y cuántas URL pueden atraer tráfico.

¿Cómo comprobar rápidamente la indexación en Yandex y Google?

Existen muchos métodos y servicios para verificar la indexación de páginas y tenemos tres herramientas que muestran la cantidad de documentos en el índice por dominio:

Simplemente especifica el dominio en cualquiera de ellos. La herramienta lo ayudará a verificar la indexación de su sitio y le dirá cuántos documentos hay en las bases de datos de Google y Yandex, teniendo en cuenta los subdominios o sin ellos:

Operadores de búsqueda para comprobar la indexación.

Puede conocer la indexación de un sitio mediante operadores de búsqueda. Para Yandex, estos son los operadores "sitio:", "host:" y "url:".

Para Google: "sitio:", "inurl:" e "información:".

Ambos motores de búsqueda proporcionan resultados aproximados, pero puedes utilizar parámetros adicionales para ver cuántas páginas se indexaron en una semana, por ejemplo:

Para comprobar la indexación de una página específica en un sitio, utilice el operador "url:" para Yandex y "info:" para Google.

Webmaster y Search Console

En Webmaster, vaya a la pestaña "indexación" - "páginas en búsqueda". Aquí puede encontrar estadísticas sobre los documentos agregados y eliminados de la búsqueda. También puede ver el historial de cambios de todo el sitio durante un intervalo de fechas determinado:

Puede comprobar la indexación de su sitio en Google utilizando Search Console. En la nueva versión de la consola, vaya a la pestaña "estado" - "indexación de URL enviadas" y obtenga una imagen de los cambios, errores, páginas excluidas y un gráfico de impresiones:

Posible control de indexación

Es importante comprender que rastrear o rastrear la página de un sitio no significa que esté incluida en el índice. En ocasiones es necesario prohibir la indexación de páginas que no son necesarias en la búsqueda, por ejemplo: URL con parámetros técnicos GET, documentos de servicio o de usuario (carrito de compras, cuenta personal, etc.), documentos con etiquetas UTM. Por tanto, es recomendable que todo sitio cuente con:

    Sitemap.xml es un archivo que ayuda a los robots de búsqueda a rastrear el sitio, teniendo en cuenta las prioridades especificadas.

    Robots.txt es un archivo que especifica reglas y parámetros de rastreo para todos los robots de los motores de búsqueda o individualmente para cada uno:

    • Con el comando No permitir, puede evitar la indexación de URL o secciones individuales del sitio.

      Retraso de rastreo: establece el tiempo mínimo para que el robot se comunique con el servidor para evitar cargas en el sitio.

      Parámetro limpio: le permite especificar parámetros CGI en URL que no son importantes para la indexación, es decir, varios identificadores de usuario, sesiones, etc. Usado solo en Yandex.

Las páginas abiertas deben estar en la búsqueda, solo así podrás pensar en la clasificación. ¡No olvide consultar el sitio para indexar, realizar un seguimiento de los cambios y las posiciones exitosas en los resultados de búsqueda!




Arriba