Archivos web. ¿Qué es un archivo web?

Hemos publicado un nuevo libro, Marketing de contenidos en redes sociales: cómo entrar en la cabeza de sus seguidores y hacer que se enamoren de su marca.

Suscribir

Web Archive es una plataforma gratuita que contiene todos los sitios que se han creado y cuya conservación no está prohibida.


Más vídeos en nuestro canal - aprende marketing en internet con SEMANTICA

Se trata de una biblioteca real en la que cualquiera puede abrir un recurso web que le interese y consultar su contenido en la fecha en que el archivo web visitó el sitio y guardó una copia.

Introducción a la organización de archivos o cómo Valery encontró textos antiguos del archivo web
En 2010, Valery creó un sitio web en el que escribía artículos sobre marketing en Internet. Uno de ellos lo escribió sobre la publicidad en Google (AdWords) en forma de breve resumen. Unos años más tarde necesitaba esta información. Pero la página con los textos fue eliminada por error hace algún tiempo. No le pasa a nadie.

Sin embargo, Valery supo salir de la situación. Abrió con confianza el servicio de archivo web e ingresó la dirección que necesitaba en la barra de búsqueda. Unos momentos después ya estaba leyendo el material que necesitaba y poco después restauró los textos en su sitio web.

Historia de la creación del Archivo de Internet.

En 1996, Brewster Kyle, un programador estadounidense, creó Internet Archive, donde comenzó a recopilar copias de sitios web con toda la información contenida en ellos. Se trataba de páginas guardadas íntegramente en formato real, como si hubiera abierto el sitio deseado en un navegador.

Cualquiera puede utilizar los datos del archivo web de forma totalmente gratuita. Al crearlo, Brewster Kyle tenía el objetivo principal: preservar los valores culturales e históricos del espacio de Internet y crear una extensa biblioteca electrónica.

En 2001, se creó el principal servicio de Internet Archive Wayback Machine, que todavía se puede encontrar hoy en https://archive.org. Aquí es donde las copias de todos están disponibles gratuitamente para su visualización.

Para no limitarse a una colección de sitios, en 1999 comenzaron a archivar textos, imágenes, grabaciones de sonido, vídeos y software.

En marzo de 2010, en los premios anuales de software libre, Internet Archive recibió el título de ganador en la categoría Proyecto de beneficio social.

La biblioteca crece cada año y, ya en agosto de 2016, el volumen de Webarchive ascendía a 502 mil millones de copias de páginas web. Todos ellos están almacenados en servidores muy grandes en San Francisco, New Alexandria y Amsterdam.

Todo sobre archive.org: cómo utilizar el servicio y cómo obtener un sitio desde un archivo web

Brewster Kyle creó Internet Archive Wayback Machine, sin la cual es imposible imaginar el trabajo del marketing de Internet moderno. Ver el historial de cualquier portal, ver cómo eran ciertas páginas antes, restaurar su antiguo recurso web o encontrar contenido necesario e interesante: todo esto se puede hacer usando Webarchive.

Cómo ver el historial del sitio en archive.org

Gracias a , la biblioteca de archivos web almacena la mayoría de los sitios de Internet con todas sus páginas. Además, guarda todos sus cambios. De esta forma, podrás ver el historial de cualquier recurso web, incluso si hace mucho tiempo que no existe.

Para hacer esto, vaya a https://web.archive.org/ e ingrese la dirección del recurso web en la barra de búsqueda.

Después de un tiempo, el archivo web mostrará un calendario con las fechas de cambios en esta página e información sobre su creación y la cantidad de cambios para todo el período.

Según la información recibida, puede descubrir que la página principal de nuestro sitio fue encontrada por primera vez por el servicio el 24 de mayo de 2014. Y, desde entonces hasta hoy, se ha guardado una copia del mismo 38 veces. Las fechas de los cambios en la página están marcadas en azul en el calendario. Para ver el historial de cambios y ver cómo se veía una determinada sección del recurso web el día que le interesa, debe seleccionar el período deseado en el feed con años anteriores y una fecha en el calendario de las ofrecidas. por el servicio.

En un momento, el archivo web abrirá la versión solicitada en su plataforma, donde podrá ver cómo era nuestro sitio en su forma original.

A continuación, utilizando el calendario con flechas en la parte superior de la pantalla, puede hojear las páginas según la cronología de sus cambios para realizar un seguimiento de cómo ha cambiado la apariencia y su contenido.

Así, podrás sumergirte en el pasado y ver todos los cambios que le han sucedido a lo largo de su existencia.

Por qué es posible que no descubra en Webarchive cómo era el sitio antes
Sucede que no se puede encontrar un sitio web utilizando el servicio Internet Archive Wayback Machine. Y esto sucede por varias razones:

  • el titular de los derechos de autor ha decidido eliminar todas las copias;
  • el recurso web se cerró de conformidad con la ley de protección de la propiedad intelectual;
  • en el directorio raíz del sitio de Internet, se ha introducido una prohibición a través del archivo robots.txt

Para que el sitio esté en el archivo web en cualquier momento, se recomienda tomar precauciones y guardarlo usted mismo en la biblioteca de Webarchive. Para hacer esto, en la sección Guardar página ahora, ingrese la dirección del recurso web que desea archivar y haga clic en el botón Guardar página.

Por lo tanto, para la seguridad de toda la información, es necesario repetir este procedimiento con cada cambio. Esto le dará una garantía del 100% de que sus páginas se guardarán durante mucho tiempo.

Cómo restaurar un sitio web inactivo desde un archivo web

Hay diferentes situaciones en las que el navegador informa que tal o cual servicio web ya no existe. Pero es necesario recuperar los datos. Webarchive ayudará.

Y para ello hay dos opciones. El primero es adecuado para sitios antiguos, de tamaño pequeño y bien indexados. Simplemente extraiga los datos de la versión requerida. A continuación, se revisa el código de la página y los enlaces se pulen manualmente. El proceso requiere algo de mano de obra en términos de tiempo y pasos. Por tanto, existe otra forma más óptima.

La segunda opción es ideal para quienes quieran ahorrar tiempo y solucionar el problema de la descarga de la forma más rápida y sencilla posible. Para hacer esto, debe abrir el servicio de recuperación del sitio desde Webarchive - RoboTools. Ingrese el nombre de dominio del portal que le interesa e indique la fecha de su versión guardada. Después de un tiempo, la tarea se completará en su totalidad, con todas las páginas llenas.

Cómo encontrar contenido de un archivo web

Webarchive es una fuente maravillosa para llenar recursos web con textos completos. Hay muchos sitios que, por diversas razones, han dejado de existir, pero contienen información útil y necesaria. Que no entra en los índices de los motores de búsqueda y es esencialmente no repetitivo.

Entonces, existen dominios gratuitos que almacenan una gran cantidad de material interesante. Todo lo que necesita hacer es encontrar el contenido adecuado y comprobar su singularidad. Esto es muy rentable, tanto desde el punto de vista financiero (porque no será necesario pagar por el trabajo de los autores) como en términos de tiempo, porque todo el contenido ya está escrito.

Cómo evitar que un sitio se incluya en la biblioteca de archivos web

Hay situaciones en las que el propietario de un sitio de Internet valora la información publicada en su portal y no quiere que esté disponible para un círculo amplio. En tales situaciones, existe una salida sencilla: en el archivo robots.txt, escriba una directiva prohibida para Webarchive. Después de este cambio en la configuración, la máquina web ya no creará copias de dicho recurso web.

En Internet existe un proyecto a gran escala que, sin recibir ingresos, desempeña un papel muy importante: conserva archivos de sitios web, vídeos, audio y materiales impresos.

Esto es web.archive.org, un proyecto global con una misión aparentemente imposible: crear un archivo de todos los sitios publicados en Internet. Además, los sitios no se guardan en forma de capturas de pantalla, sino en forma de páginas web en pleno funcionamiento con todos los enlaces, imágenes y estilos (CSS). Además, para cada sitio, durante su existencia en la red, este archivo puede acumular varios cientos de copias, que datan de diferentes etapas de la vida del recurso.

¿Cómo se puede utilizar el archivo de sitios de Internet?

¿Cómo puede ser útil este archivo web?

  • En primer lugar, podrá sumergirse en una agradable nostalgia mientras recorre su sitio de hace muchos años. Será posible rastrear el historial de cambios de cualquier otro recurso de Internet (la publicación contiene capturas de pantalla de artículos sobre el ahora fallecido Aport de este archivo web, y capturas de pantalla que ilustran la evolución de la página principal de Yandex tienen el mismo origen).
  • Pero eso no es todo. Si la página de un sitio que ha marcado como favorito no se abre, entonces, por supuesto, puede intentar recuperarla del caché de Yandex o Google (lea más sobre la mejor manera de buscar en Google). Pero si un recurso no ha estado disponible durante mucho tiempo, ya no será posible abrir dichos enlaces inactivos en ningún otro lugar que no sea archive.org (aunque es posible que tampoco esté allí por los motivos que se describen a continuación).
  • Además, si por alguna extraña razón no realizó una copia de seguridad de su sitio, entonces este archivo web será la única forma de restaurar su sitio. Es posible borrar todos los enlaces de web.archive.org y hacerlos directos específicamente a su recurso (lea sobre esto a continuación).
  • Bueno, lo último que me viene a la mente es buscar contenido único. Si no puede crear usted mismo contenido único para el sitio (escribir artículos), aquí puede conseguirlos, aunque aún tendrá que hacer un esfuerzo. La conclusión es que muchos sitios mueren y dejan de estar disponibles junto con su contenido.

    Una vez encontrados dichos recursos, puede extraer textos del archivo de Internet y colocarlos en su sitio, después de haber verificado previamente su singularidad. De esta manera no plagia ni viola los derechos de autor (copyright), pero buscar en el archivo web puede parecer una tarea que requiere mucho tiempo para muchos.

    El servicio en línea Webarchive se remonta al año 1996. La tarea asignada al proyecto parecía imposible, incluso teniendo en cuenta el hecho de que en ese momento había muchos menos sitios en Internet que los que hay ahora (en varios órdenes de magnitud). Al principio, los sitios no se archivaban con mucha frecuencia, pero con el tiempo, al aumentar la capacidad de almacenamiento, Web Archive comenzó a crear cada vez más instantáneas de los sitios.

    Este archivo web entró en la base de datos recién en 1997, y su página principal tenía entonces el siguiente aspecto:

    Ahora bien, para todo (incluidos audio, vídeo y libros escaneados), esta organización sin fines de lucro utiliza un espacio en disco monstruoso, medido en diez y quince bytes. El sitio tiene réplicas en varios centros de datos y el proyecto en sí recibió recientemente el estatus de biblioteca oficial. Si consideramos sólo el archivo de páginas web, entonces ya hay alrededor de cien mil millones (esto tiene en cuenta todas las impresiones de páginas tomadas y guardadas).


    También puede navegar por los archivos utilizando la línea de tiempo ubicada en la parte superior de la página, donde las líneas negras verticales marcan las impresiones disponibles para este sitio. A veces, los archivos web pueden estar dañados, entonces tendrás que abrir la instantánea más cercana.

    Al hacer clic en el círculo azul podemos ver enlaces a varios archivos que difieren en el momento en que fueron eliminados.

    Es posible que esto se haga para evitar la pérdida de datos debido al daño inevitable a los discos duros almacenados. Al ver uno de los archivos web, verá una copia de su sitio (en este ejemplo, el mío) con enlaces internos funcionales y un estilo conectado. Es cierto que no funciona perfectamente.

    Por ejemplo, parte de mi diseño todavía estaba torcido y el menú lateral que se ejecutaba en JavaScript desapareció por completo:

    Pero esto no es tan importante, porque este menú está naturalmente presente en el código fuente de la página web.archive.org. Sin embargo, no podrá simplemente copiar el texto de esta página a su sitio web para reemplazar el perdido. ¿Por qué? Sí, porque viajar dentro de un sitio del pasado sólo será posible si todos los enlaces internos se reemplazan por los generados por Webarchive (de lo contrario, serás redirigido a la versión moderna del recurso).

    Está claro que será posible cortar manualmente la parte introductoria de los enlaces (http://web.archive.org/web/20111013120145/), obteniendo así una versión funcional. Incluso puedes automatizar este proceso usando la herramienta de búsqueda y reemplazo del editor del Bloc de notas, pero será aún más fácil usar la capacidad integrada en este servicio para reemplazar enlaces internos por enlaces originales.

    Para hacer esto, copie la dirección de la página con la copia deseada de su sitio (desde la barra de direcciones del navegador, comienza con http://web.archive.org/). Se verá así:

    E inserte la construcción "id_" al final de la fecha (20111013120145) para que se vea así:

    Ahora devuelva la dirección modificada a la barra de direcciones del navegador y presione Entrar. Después de esto, la página con el archivo de su sitio se actualizará y todos los enlaces internos serán directos. Será posible copiar el texto del artículo desde el código fuente del archivo web.

    Está claro que restaurar un sitio enorme de esta manera llevará una cantidad de tiempo monstruosa, pero cuando no haya otra opción, incluso esto parecerá maná del cielo. Además, normalmente sólo los webmasters principiantes que tienen poco de este contenido sufren una pérdida irreversible de contenido, mientras que los propietarios de sitios más o menos experimentados, que han sido quemados por cosas similares más de una vez, hacen copias de seguridad de archivos y bases de datos cinco veces al día.

    Si desea ver todas las páginas de su sitio web (o el de otra persona) que se encuentran en las profundidades de este mastodonte, deberá pegar la siguiente dirección en la barra de direcciones de su navegador y presionar Enter:

    Puedes usar el tuyo propio en lugar de mi dominio. En la página que se abre podrás aplicar un filtro en el formulario previsto para ello:

    Cómo extraer contenido único para un sitio web desde Webarchive

    Personalmente no he utilizado el método que se describe a continuación, pero en teoría todo debería funcionar. Se me ocurrió la idea de este joven recurso, donde se describían todos los pasos. El principio del método es que decenas de sitios mueren cada día y nunca reviven.

    Puede haber muchas razones para esto, y la mayoría de los recursos que murieron en Bose nunca representaron ningún valor particular en términos de contenido. Pero hay excepciones a cada regla y sólo hay que separar el trigo de la paja. Lo principal es que los sitios desaparecidos con contenido más o menos digerible estén representados en el Archivo Web, al menos en una copia.

    Porque después de la muerte, el contenido de estos sitios desaparecerá gradualmente del índice de los motores de búsqueda y luego, al tomarlo de Internet Archive, usted, en teoría, se convertirá en su legítimo propietario y fuente principal para los motores de búsqueda. Sería genial si este fuera el caso (existe la opción de que durante la vida útil del recurso se pudiera haber copiado y pegado sin piedad). Pero además del problema de la unicidad de los textos, está el problema de encontrarlos.

    Primero, necesitamos una lista de sitios que morirán pronto o que ya han muerto. El autor del método sugiere descargar una lista de dominios liberados o ya liberados del sitio web del registrador de nombres de dominio Nic.ru.

    Lo que es digno de mención es que la última columna de esta lista (se puede abrir en Excel) mostrará la cantidad de archivos creados para cada sitio en el Archivo web (sin embargo, puede verificar la disponibilidad de un dominio en el archivo web en un número de servicios en línea, por ejemplo, en esto o en esto).

    Desde este enlace se puede descargar una lista de nombres de dominio burgueses que se están publicando o que ya se han publicado. Bueno, luego revisamos el contenido de los sitios que fueron guardados por el Archivo Web y tratamos de encontrar algo que valga la pena. Luego verificamos la singularidad de estos materiales (proporcioné el enlace justo arriba) y, si tenemos éxito, los publicamos en nuestro recurso o los vendemos en algún intercambio de contenido.

    Sí, el método es tedioso y no lo he probado personalmente. Pero creo que con cierto grado de automatización y capacidad intelectual se pueden producir buenos resultados. Probablemente alguien ya haya puesto esto en marcha. ¿Qué opinas?

    Cada sitio es una historia que tiene un principio y un final. Pero, ¿cómo rastrear las etapas de formación de un proyecto, su ciclo de vida? Para estos fines, existe un servicio especial llamado archivo web. En este artículo hablaremos sobre la presentación de dichos recursos, su uso y capacidades.

    ¿Qué es un archivo web y por qué es necesario?

    Un archivo web es un sitio especializado diseñado para recopilar información sobre diversos recursos de Internet. El robot guarda copias de los proyectos de forma automática y manual, todo depende únicamente del sitio y del sistema de recopilación de datos.

    Actualmente, existen varias docenas de sitios con mecánicas y tareas similares. Algunos de ellos se consideran privados, otros son proyectos sin fines de lucro abiertos al público. Los recursos también se diferencian entre sí por la frecuencia de las visitas, la integridad de la información almacenada y las posibilidades de utilizar el historial recibido.

    Como señalan algunos expertos, las páginas de almacenamiento de flujo de información se consideran un componente importante de la Web 2.0. Es decir, parte de la ideología del desarrollo de Internet, que está en constante evolución. La mecánica de recolección es muy mediocre, pero no existen métodos ni análogos más avanzados. Con la ayuda de un archivo web, puede resolver varios problemas: rastrear información a lo largo del tiempo, restaurar un sitio perdido, buscar información.

    ¿Cómo utilizar el archivo web?

    Como se señaló anteriormente, un archivo web es un sitio que proporciona cierto tipo de servicio de búsqueda en la historia. Para utilizar el proyecto, debe:

  • Vaya a un recurso especializado (por ejemplo, web.archive.org).
  • Ingrese la información para la búsqueda en el campo especial. Podría ser un nombre de dominio o una palabra clave.
  • Obtenga resultados relevantes. Serán uno o más sitios, cada uno de los cuales tiene una fecha de rastreo fija.
  • Al hacer clic en una fecha, acceda al recurso correspondiente y utilice la información para fines personales.
  • Hablaremos de sitios especializados para buscar registros históricos de proyectos más adelante, así que quédate con nosotros.

    Proyectos que proporcionan la historia del sitio.

    Hoy en día existen varios proyectos que brindan servicios para encontrar copias guardadas. Éstos son algunos de ellos:

  • El más popular y solicitado entre los usuarios es web.archive.org. El sitio presentado es considerado el más antiguo de Internet; su creación se remonta a 1996. El servicio recopila datos de forma automática y manual, y toda la información se aloja en enormes servidores extranjeros.
  • El segundo sitio más popular es peeep.us. El recurso es muy interesante porque se puede utilizar para guardar una copia del flujo de información a la que sólo usted puede acceder. Tenga en cuenta que el proyecto funciona con todos los nombres de dominio y amplía los límites del uso de archivos web. En cuanto a la integridad de la información, el sitio presentado no guarda imágenes ni marcos. Desde 2015, también está incluido en la lista de productos prohibidos en Rusia.
  • Un proyecto similar al descrito anteriormente es archive.is. Las diferencias incluyen la integridad de la recopilación de información, así como la capacidad de guardar páginas de las redes sociales. Por lo tanto, si ha perdido una publicación o información interesante, puede buscar en el archivo web.
  • Posibilidad de utilizar archivos web.

    Ahora todo el mundo sabe qué es un archivo web y qué sitios ofrecen servicios para guardar copias de proyectos. Pero muchos todavía no entienden cómo utilizar la información presentada. Las capacidades de los datos de archivo se expresan de la siguiente manera:

  • Elegir un nombre de dominio. No es ningún secreto que muchos webmasters utilizan dominios ya actualizados. Vale la pena entender que los usuarios experimentados rastrean no solo los parámetros objetivo, sino también el historial de uso anterior. Cada usuario de la red quiere saber qué está comprando: si anteriormente había prohibiciones o sanciones, si el proyecto estuvo sujeto a filtros.
  • Restaurar un sitio desde archivos. A veces ocurre un desastre que amenaza la existencia de su propio proyecto. La falta de copias de seguridad oportunas en el perfil de hosting y un error accidental pueden provocar una tragedia. Si esto sucede, no te preocupes, porque puedes utilizar el archivo web. Hablaremos sobre el proceso de recuperación a continuación.
  • Busque contenido único. Cada día, los sitios llenos de contenido mueren en Internet. Esto ocurre con especial regularidad, por lo que se pierde un enorme flujo de información. Con el tiempo, estas páginas desaparecen del índice y un webmaster ingenioso puede tomar prestada la información para un proyecto personal. Por supuesto, existe un problema de búsqueda, pero esa es una preocupación secundaria.
  • Hemos analizado las características principales que ofrecen los archivos web, ahora es el momento de pasar a un estudio más detallado de los elementos individuales.

    Restaurar un sitio web desde un archivo web

    Nadie está inmune a los problemas con los sitios web. La mayoría de ellos se solucionan mediante copias de seguridad. ¿Pero qué pasa si no hay una copia guardada en el servidor de alojamiento? Utilice el archivo web. Para hacer esto debes:

  • Vaya al recurso especializado del que hablamos anteriormente.
  • Ingrese su propio nombre de dominio en la barra de búsqueda y abra el proyecto en una nueva ventana.
  • Elija la foto más exitosa, que esté más cerca de la fecha del problema y tenga una vista completa.
  • Corregir enlaces internos a directos. Para hacer esto, use el enlace "http://web.archive.org/web/any_sequence_number_id_/Site name".
  • Copie la información perdida o los datos de diseño para utilizarlos en la recuperación.
  • Tenga en cuenta que el proceso es algo tedioso, dada la velocidad del archivo. Por lo tanto, recomendamos que los propietarios de grandes recursos web realicen copias de seguridad con más frecuencia, lo que les ahorrará tiempo y nervios.

    Buscamos contenido único para nuestro propio sitio web.

    Algunos webmasters utilizan una forma interesante de obtener contenido nuevo que nadie necesita. Cada día, cientos de sitios quedan en el olvido y con ellos se pierde información. Para convertirse en propietario de contenido, debe hacer lo siguiente:

  • Ingrese la URL
    https://www.nic.ru/auction/forbuyer/download_list.shtml#buying en la barra de búsqueda.
  • En el sitio web de subasta de nombres de dominio, descargue archivos con el nombre ru.
  • Abra los archivos recibidos usando Excel y comience la selección según la disponibilidad de información de diseño.
  • Ingrese los proyectos encontrados en la lista en la página de búsqueda de archivos web.
  • Abra la instantánea y acceda al flujo de información.
  • Recomendamos monitorear el contenido en busca de plagio, esto le permitirá encontrar textos verdaderamente valiosos. ¡Y eso es todo! Ahora todo el mundo conoce las posibilidades y métodos de utilizar un archivo web. Utilice el conocimiento de forma inteligente y rentable.

    Me encontré con un enlace roto. El enlace era a un manual para configurar copias de seguridad del sitio. El tema fue tan interesante que entré a archive.org para ver qué tipo de manual era. Allí descubrí el blog de un hombre que alguna vez estuvo involucrado en la creación de sitios web y algunos temas en Internet. Pero aparentemente lo abandonó todo. El blog existió hasta diciembre de 2013, luego hubo un talón para un año más. Seguiré adelante y comprobaré el dominio del sitio. Resultó libre. El hecho es que me interesan estos sitios desde hace mucho tiempo, de vez en cuando voy a telderi y busco un sitio económico relacionado con TI para comprar. Hasta ahora no he encontrado nada adecuado en relación calidad/precio.

    ¿Por qué necesito un sitio así? Estoy tramando un plan para hacer algún tipo de fusión o adquisición. Conecte un sitio así con este. Para aumentar el tráfico en él y otras ventajas. Alguien dirá: ¿qué pasa con la diversificación? Por supuesto, la diversificación es algo bueno. Pero todavía no hay nada que diversificar; primero necesitamos desarrollar algo. Por eso, veo la idea de fusionar sitios como muy prometedora.

    Entonces, ese es todo el trasfondo. Decidí restaurar el sitio que encontré. Resultó tener unas 300 páginas. Registré el dominio y comencé a buscar una herramienta para descargar el sitio.

    ¿Cómo restaurar un sitio web desde un archivo web?

    El procedimiento es sencillo. Tómalo y descárgalo. Pero el asunto se complica por el hecho de que hay muchas páginas y todas estarán en forma de archivos html estáticos. Será complicado descargarlo manualmente. Empecé a preguntar a las personas que estaban involucradas en este tipo de trabajo. La gente recomendó r-tools.org. Resultó pagado. Empecé a buscarlo en Google porque sé que es un procedimiento sencillo y no quería pagarlo, aunque fuera una tarifa tan pequeña. La solución se encontró muy rápidamente en forma de aplicación de rubí. Como esperaba, todo es muy sencillo, se incluyen instrucciones.

    Instale una utilidad para restaurar sitios desde archive.org

    Sin pensarlo dos veces, instalo todo en el servidor y comienzo la recuperación.

    #instalar rubí:

    apt-get instalar rubí

    #Instale la herramienta en sí:

    instalación de gemas wayback_machine_downloader

    Comenzamos a descargar el sitio desde el archivo web.

    wayback_machine_downloader http://www.site.ru --timestamp 20131209110704

    Aquí puede especificar la marca de instantánea en la opción de marca de tiempo. Porque un sitio puede tener decenas o cientos de imágenes en su archivo web. Indico el último, cuando el sitio aún estaba vivo, lógicamente. La utilidad determina inmediatamente la cantidad de páginas y muestra las páginas descargadas en la consola.

    Todo se descarga y guarda, obtenemos una serie de archivos estáticos en la carpeta. Creamos una carpeta en el lugar correcto y colocamos allí los archivos descargados. Me gusta usar rsync:

    rsync -avh ./websites/www.site.com/ /var/www/site.com/

    Si aún no la conoces, te la recomiendo. Este es un intercambio de Mirafox, que quizás ya conozcas por otros proyectos para webmasters (Telderi, Miralinks, Gogetlinks). En Kwork, los autónomos no son seleccionados en función de las propuestas publicadas por clientes potenciales, sino que ellos mismos presentan propuestas que el cliente puede elegir. El "truco" del servicio es que el coste base de cualquier trabajo (como se llaman las ofertas de autónomos) es siempre de 500 rublos.

    Bueno, para aquellos que quieran descubrir muchas letras con comandos y guiones incomprensibles y hacerlo ellos mismos, continuamos.

    Creando la configuración de nginx para el sitio restaurado

    Estoy creando una configuración universal, con miras al futuro: procesamiento PHP. Es posible que lo necesite si desea reactivar el sitio y mejorar la funcionalidad, por ejemplo, formularios para enviar mensajes, suscripciones.

    En general, la configuración mínima para un sitio estático se verá así:

    Servidor (
    nombre_servidor site.ru www.site.ru *.site.ru;
    raíz /var/www/site.ru;
    índice index.html;

    gzip encendido;
    gzip_disable "msie6";
    gzip_types texto/texto sin formato/aplicación css/aplicación json/texto x-javascript/aplicación xml/aplicación xml/texto xml+rss/aplicación javascript/javascript;

    ubicación = /robots.txt (
    permitir todo;
    log_not_found desactivado;
    acceso_cerrar sesión;
    }

    ubicación ~* \.(js|css|png|jpg|jpeg|gif|ico|woff)$ (
    caduca como máximo;
    log_not_found desactivado;
    }
    }

    Esta configuración también incluye compresión y almacenamiento en caché en el navegador.

    Reinicie el servidor web:

    reinicio del servicio nginx

    ¿Cómo consultar un sitio web sin cambiar el DNS?

    En principio, puedes esperar a que se actualice el DNS después de registrar el dominio. Pero quiero ver el resultado lo antes posible. Y puedes empezar a trabajar de inmediato. Hay una forma sencilla de hacer esto: escriba la IP del servidor para el dominio deseado en el archivo de hosts, una entrada como esta:

    10.10.1.1 sitio.ru

    Después de esto, el sitio deseado se abrirá exclusivamente en su computadora.

    Como esto. Me siento como un nigromante :)

    El sitio se mostrará exactamente como lo vieron sus usuarios. Todos los enlaces funcionarán siempre que tenga todos los archivos necesarios. Quizás algunos de ellos estén rotos, en algún lugar falten imágenes, estilos o algo más. Pero ese no es el punto; después de todo, lo más importante para cualquier sitio es el contenido. Y lo más probable es que permanezca.

    Limpiar el código del sitio restaurado.

    Pero eso no es todo. Aunque puedes dejarlo como está. Pero para lograr un mejor efecto, tiene sentido limpiar un poco el sitio restaurado. En realidad, esta es la parte más difícil de todo este asunto. El hecho es que dado que el sitio se mostrará tal como lo vieron sus usuarios, habrá un montón de todo tipo de basura en el código de la página. Se trata principalmente de publicidad, pancartas y mostradores. También algunos elementos que resultan inútiles en un sitio estático. Por ejemplo, un enlace para iniciar sesión en el área de administración del sitio. Formularios de envío de comentarios, suscripciones, algunos botones y otros elementos heredados del CMS dinámico en el que trabajaba antes el sitio. En mi caso fue WordPress.

    ¿Cómo eliminar fragmentos de código html en muchas páginas estáticas?

    ¿Cómo se puede eliminar todo esto? Muy sencillo. Mire el código y simplemente elimine lo innecesario. Es fácil de decir. Pero tenemos varios cientos de páginas. Por eso aquí se necesita magia.

    buscar ./site.ru/ -type f -name "*.html" -exec sed -i "s|

    Entrada

    ||g"
    {} \;

    Con esta construcción puedes eliminar TODAS las etiquetas html de un archivo. Lo más sencillo. Entonces tendrás archivos de texto.

    sed -e "s/]*>//g" prueba.html

    El enfoque normal es descargar contenido y luego usar solo contenido útil para otra cosa: escribir nuevos artículos, portales u otra cosa.

    Pero esto no me conviene, primero quiero recrear el sitio por completo y ver cómo cobrará vida y si existirá. Por lo tanto, limpiar el código me lleva un par de horas de arduo trabajo. Abro las páginas del sitio, uso un depurador para mirar el código fuente de las páginas y encuentro javascript, banners, contadores y formularios que no necesito.

    Así es como elimino el contador Liveinternet de todas las páginas de mi sitio estático:

    buscar site.ru/ -type f -name "*.html" -exec sed -i "//,//d" () \;

    buscar site.ru/ -type f -name "*.html" -exec sed -i "s|||g" (
    } \;

    A pesar de las construcciones que pueden parecer aterradoras para una persona ignorante, estas son cosas bastante simples, ya que este contador tiene etiquetas de comentarios únicas, mediante las cuales determinamos la parte del código que se eliminará, indicándolas como patrones.

    En algunos casos, hay que devanarse los sesos para eliminar lo innecesario y no tocar lo necesario, porque algunos elementos pueden repetirse en las páginas. Por ejemplo, para eliminar un contador de Google Analytics tuve que escribir algo como esto:

    Primero, borro la línea desde la que comienza el contador. Este comando elimina la línea sobre el patrón var gaJsHost, ya que solo necesito eliminarla en este lugar y no tocarla en ningún otro lugar:

    buscar site.ru/ -type f -name "*.html" -exec sed -i -n "/var gaJsHost/(x;d;);1h;1!(x;p;);$(x;p ;)" () \;

    Ahora recortamos el resto de la pieza, que resulta fácil de identificar por los patrones únicos en la primera y última línea:

    buscar site.ru/ -type f -name "*.html" -exec sed -i "/var gaJsHost/,/catch(err)/d" () \;

    Del mismo modo, elimino el formulario para agregar comentarios:

    Borro 4 líneas con etiquetas de cierre no únicas después de la línea con un patrón único:

    busque theredhaired.ru/ -type f -iname "*.html" -exec sed -i "/block_links/(N;N;N;N;s/\n.*//;)" () \;

    Y ahora estoy recortando un bloque bastante grande de 30 líneas, indicando los patrones únicos de su primera y última línea:

    busque theredhaired.ru/ -type f -iname "*.html" -exec sed -i "/ Subscription/,/block_links/d" () \;

    Por supuesto, puedes intentar resolver estos últimos dos casos utilizando patrones multilínea, pero nunca los dominé, por mucho que busqué en Google. Encontré muchos ejemplos con varias líneas, pero todos son simples, sin caracteres especiales ni caracteres de escape (tabulaciones, saltos de línea).

    Quizás toda esta limpieza sea más fácil de realizar en PHP o incluso en Perl, cuyo propósito es el procesamiento de texto. Pero, desafortunadamente, no los conozco, así que uso bash y sed.

    Hice todo esto en una copia separada del sitio con un montón de iteraciones y pruebas, para poder revertir los cambios siempre; guardé copias después de cada cambio significativo, nuevamente usando rsync.

    ¿Cómo editar títulos y otros elementos de forma masiva en un sitio web estático?

    Dado que mi objetivo no es sólo resucitar el sitio, sino indexarlo, clasificarlo en la búsqueda e incluso generar tráfico desde la búsqueda, necesito pensar en algún tipo de SEO. Los títulos originales definitivamente no me quedan bien, así que quiero cambiarlos. WordPress heredó el esquema %sitename% »%postname%. Además, el nombre de nuestro sitio no está claro: el dominio del sitio en sí. La opción más sencilla es recortar la primera parte del título. Pero eso tampoco me funciona. Así que cambiaré esta parte del título por una solicitud complicada. Así es como lo hago:

    Como puede ver, hay muchas comprobaciones e iteraciones. Pero al final, los títulos se convierten en lo que necesitan. Puede adivinar que comencé un intento de recopilar tráfico a este sitio basándose en solicitudes para restaurar sitios desde un archivo web. ¿Por qué necesito esto? Voy a proporcionar un servicio pago para restaurar dichos sitios. Como puede ver, en este caso es bastante sencillo realizar un reemplazo. Era posible no molestarse con varias opciones, sino resumir todo en una. Pero quería eliminar o cambiar símbolos innecesarios y, como había varias opciones, las cambié por varias propias. Esto es SEO.

    Ahora voy a agregar Yandex Metrica a todos los archivos html de mi sitio. Y al mismo tiempo transferirlo del antiguo esquema www a sin www.

    ¿Cómo convertir un sitio web estático de www a sin www?

    Esto se hace simplemente reemplazando:

    buscar ./ ​​-tipo f -iname '*.html' -exec sed -i 's/http:\/\/www.site.ru/http:\/\/site.ru/g' () \;

    Luego, por si acaso, en la configuración de nginx agregaremos la opción con www al redireccionamiento:

    servidor(
    nombre_servidor www.site.ru;
    devolver 301 $scheme://site.ru$request_uri;
    }

    ¿Cómo crear un sitemap.xml para un sitio estático?

    Esto será necesario cuando agreguemos el sitio a los motores de búsqueda. Esto es muy importante, dado que nuestro sitio ha sido restaurado, es posible que le falte algo de navegación y no habrá ningún enlace a algunas páginas. El mapa del sitio suaviza este punto, incluso si no puede acceder a la página a través del sitio en sí, al especificarlo en sitemap.xml, permitiremos que se indexe, lo que potencialmente puede generar tráfico directamente desde la búsqueda. a la página.

    Además, después de un tiempo realizaré un análisis de los resultados que he logrado con este sitio. Tráfico, clientes potenciales o algo más. Entonces, estad atentos al sitio, en 2-6 meses verás la continuación de la historia. Te mostraré la estadística, si la hay, etc. Si estás leyendo este artículo seis meses después y todavía no hay un enlace a la continuación, recuérdamelo en los comentarios, por favor :)

    Lo tengo resuelto, ¿verdad?

    Si está inspirado, lo ha descubierto y lo va a hacer usted mismo: una reverencia y respeto hacia usted. Me gusta la gente que quiere entender y comprender todo.

    Archivo Organización sin fines de lucro fundada en 1996 en San Francisco.
    El archivo recopila copias de páginas web, materiales gráficos, vídeos, grabaciones de audio y software.
    El Archivo proporciona un archivo a largo plazo del material recopilado y acceso gratuito a sus bases de datos para el público en general. El objetivo declarado del Archivo es la preservación de los valores culturales e históricos de la civilización en la era de las tecnologías de Internet, la creación y. soporte de una biblioteca electrónica.
    El tamaño del Archivo es de 3 petabytes (1 petabyte = 1000 gigabytes, más precisamente 1024 gigabytes), y pronto aumentará a 5 petabytes.
    Contiene 85 mil millones de páginas web.
    El servidor del Archivo está ubicado en San Francisco, los espejos están en la Nueva Biblioteca de Alejandría y Ámsterdam.
    Desde 2007, el Archivo tiene la personalidad jurídica de biblioteca.

    Servicio Wayback Machine Archive www.archive.org.
    web.archive.org Es interesante ver cómo era un sitio antes, o tal vez cómo era mi sitio.
    Es cierto que no todas las páginas contienen copias; una vez sin imágenes, el sitio Yandex bloqueó su historial. Es decir, no exija demasiado al sitio. Un archivo es sólo eso: un archivo. Y es difícil seguir el progreso de Internet, y mucho menos salvarlo. Entonces, sea cual sea tu suerte.

    
    Arriba