Archive Web comment l'utiliser. Comment extraire le contenu unique d'une archive Web. Possibilité d'utiliser des archives web

Je suis tombé sur lien brisé. Le lien renvoyait vers un manuel de configuration des sauvegardes pour le site. Le sujet était si intéressant que je suis allé sur archive.org pour voir de quel type de manuel il s'agissait. Là, j'ai découvert le blog d'un homme qui était autrefois impliqué dans la création de sites Web et dans certains sujets sur Internet. Mais apparemment, il a tout abandonné. Le blog a existé jusqu'en décembre 2013, puis il y a eu un talon pour une autre année. Je vais aller de l'avant et vérifier le domaine du site. Il s'est avéré libre. Le fait est que je m'intéresse à de tels sites depuis longtemps, de temps en temps je vais sur telderi et je cherche un site informatique bon marché à acheter. Jusqu’à présent, je n’ai rien trouvé de convenable en termes de rapport qualité/prix.

Pourquoi ai-je besoin d’un tel site ? J'élabore un plan pour réaliser une sorte de fusion ou d'acquisition. Connectez un tel site avec celui-ci. Pour augmenter le trafic sur celui-ci et d'autres goodies. Quelqu’un dira : qu’en est-il de la diversification ? Bien sûr, la diversification est une bonne chose. Mais il n’y a encore rien à diversifier ; il faut d’abord développer quelque chose. Et donc, je considère l’idée de fusionner des sites comme très prometteuse.

Voilà donc tout le contexte. J'ai décidé de restaurer le site que j'ai trouvé. Il s'est avéré qu'il faisait environ 300 pages. J'ai enregistré le domaine et j'ai commencé à chercher un outil pour télécharger le site.

Comment restaurer un site Web à partir d'une archive Web ?

La procédure est simple. Prenez-le et téléchargez-le. Mais la question est compliquée par le fait qu'il existe de nombreuses pages, et qu'elles seront toutes sous la forme de fichiers HTML statiques. Vous serez torturé de le télécharger manuellement. J'ai commencé à interroger des personnes impliquées dans ce genre de travail. Les gens ont recommandé r-tools.org. Il s'est avéré que c'était payé. J'ai commencé à chercher sur Google parce que je sais ce que c'est procédure simple, et je ne voulais pas payer pour ça, même si c'était comme ça petit supplément. La solution a été trouvée très rapidement sous la forme d’une application rubis. Comme je m'y attendais, tout est très simple, les instructions sont incluses.

Installez un utilitaire pour restaurer les sites depuis archive.org

Sans y réfléchir à deux fois, j'installe tout sur le serveur et lance la récupération.

#installer Ruby :

apt-get installer rubis

#Installez l'outil lui-même :

gemme installer wayback_machine_downloader

Nous commençons à télécharger le site à partir des archives Web

wayback_machine_downloader http://www.site.ru --timestamp 20131209110704

Ici, vous pouvez spécifier la marque d'instantané dans l'option d'horodatage. Parce qu'un site peut contenir des dizaines ou des centaines d'images dans ses archives Web. J'indique la dernière, lorsque le site était encore vivant, logiquement. L'utilitaire détermine immédiatement le nombre de pages et affiche les pages téléchargées sur la console.

Tout est téléchargé et enregistré, on obtient un scatter fichiers statiques dans un dossier. Créez un dossier dans au bon endroit, et placez-y les fichiers téléchargés. J'aime utiliser rsync :

rsync -avh ./websites/www.site.com/ /var/www/site.com/

Si vous ne la connaissez pas encore, je vous la recommande. Il s'agit d'un échange de la société Mirafox, que vous connaissez peut-être déjà grâce à d'autres projets pour webmasters (Telderi, Miralinks, Gogetlinks). Sur Kwork, les freelances ne sont pas sélectionnés sur la base des propositions postées par des clients potentiels, mais ils soumettent eux-mêmes des propositions que le client peut choisir. Le « truc » du service est coût de base tout quork (comme on appelle les offres des pigistes) coûte toujours 500 roubles.

Eh bien, pour ceux qui veulent comprendre beaucoup de lettres avec des commandes et des scripts incompréhensibles et le faire eux-mêmes, nous continuons.

Création configurations nginx pour le site restauré

Je fais une config universelle, avec un oeil tourné vers l'avenir - traitement php. Vous pourriez en avoir besoin si vous souhaitez relancer le site et améliorer les fonctionnalités, par exemple les formulaires d'envoi de messages, les abonnements.

En général, la configuration minimale pour un site statique ressemblera à ceci :

Serveur (
nom_du serveur site.ru www.site.ru *.site.ru ;
racine /var/www/site.ru ;
index index.html;

gzip dessus ;
gzip_disable "msie6" ;
gzip_types texte/texte brut/application css/application json/texte x-javascript/application xml/application xml/xml+texte rss/application javascript/javascript ;

emplacement = /robots.txt (
permettez tout;
log_not_found désactivé ;
access_log off ;
}

emplacement ~* \.(js|css|png|jpg|jpeg|gif|ico|woff)$ (
expire max ;
log_not_found désactivé ;
}
}

Cette configuration inclut également la compression et la mise en cache dans le navigateur.

Redémarrez le serveur Web :

redémarrage du service nginx

Comment vérifier un site Web sans changer de DNS ?

En principe, vous pouvez attendre mises à jour DNS après l'enregistrement du domaine. Mais je veux voir le résultat le plus tôt possible. Et vous pouvez commencer à travailler immédiatement. Il existe un moyen simple de procéder : notez l'adresse IP du serveur pour le domaine souhaité V fichier d'hôtes, un enregistrement comme celui-ci :

10.10.1.1 site.ru

Après cela, le site souhaité s'ouvrira exclusivement sur votre ordinateur.

Comme ça. J'ai l'impression d'être un nécromancien :)

Le site sera affiché exactement tel que ses utilisateurs l'ont vu. Tous les liens fonctionneront tant que vous aurez tout fichiers nécessaires. Peut-être que certains d'entre eux seront cassés, quelque part il manquera des images, des styles ou autre chose. Mais là n’est pas la question : après tout, la chose la plus importante pour tout site est le contenu. Et cela restera très probablement.

Nettoyage du code du site restauré

Mais ce n'est pas tout. Bien que vous puissiez le laisser ainsi. Mais pour réaliser meilleur effet, il est logique de ranger un peu le site restauré. C’est en fait la partie la plus difficile de toute cette histoire. Le fait est que puisque le site sera affiché tel que ses utilisateurs l'ont vu, il y aura un tas de toutes sortes de déchets dans le code de la page. Il s'agit principalement de publicité, de bannières et de comptoirs. Egalement quelques éléments inutiles sur un site statique. Par exemple, un lien pour vous connecter à la zone d'administration du site. Des formulaires d'envoi de commentaires, d'abonnements, quelques boutons et autres éléments hérités du CMS dynamique sur lequel fonctionnait auparavant le site. Dans mon cas, c'était WordPress.

Comment supprimer des fragments code HTML sur de nombreuses pages statiques ?

Comment tout cela peut-il être supprimé ? Très simple. Regardez le code et supprimez simplement ce qui est inutile. C'est facile à dire. Mais nous avons plusieurs centaines de pages. C'est pourquoi la magie est nécessaire ici.

find ./site.ru/ -type f -name "*.html" -exec sed -i "s|

Entrée

||g"
{} \;

Avec cette construction, vous pouvez supprimer TOUTES les balises HTML d'un fichier. La chose la plus simple. Vous aurez alors des fichiers texte

sed -e "s/]*>//g" test.html

L'approche normale consiste à télécharger simplement du contenu, puis à utiliser uniquement le contenu utile pour autre chose - pour écrire de nouveaux articles, pour des portes ou autre chose.

Mais cela ne me convient pas, je veux d'abord recréer complètement le site et voir comment il prendra vie et s'il existera du tout. Par conséquent, le travail de nettoyage du code me prend quelques heures de travail minutieux. J'ouvre les pages du site, j'utilise un débogueur pour regarder le code source des pages et je trouve du javascript, des bannières, des compteurs et des formulaires dont je n'ai pas besoin.

C'est comme ça que je nettoie Compteur Internet en direct de toutes les pages de mon site statique :

find site.ru/ -type f -name "*.html" -exec sed -i "//,//d" () \;

find site.ru/ -type f -name "*.html" -exec sed -i "s|||g" (
} \;

Malgré les constructions qui peuvent paraître effrayantes à une personne ignorante, ce sont des choses assez simples, puisque ce compteur possède des balises de commentaires uniques, par lesquelles on détermine la partie du code à supprimer, en les indiquant comme modèles.

Dans certains cas, il faut se creuser la tête pour supprimer ce qui est inutile et ne pas toucher à ce dont on a besoin, car certains éléments peuvent être répétés sur les pages. Par exemple, pour supprimer Compteur Google Analytics devait écrire quelque chose comme ceci :

Tout d'abord, je supprime la ligne à partir de laquelle commence le compteur. Cette commande supprime la ligne au-dessus du modèle var gaJsHost, car il me suffit de la supprimer à cet endroit et de ne la toucher nulle part ailleurs :

find site.ru/ -type f -name "*.html" -exec sed -i -n "/var gaJsHost/(x;d;);1h;1!(x;p;);$(x;p ;)" () \;

Nous découpons maintenant le reste de la pièce, qui devient facile à identifier grâce aux motifs uniques de la première et de la dernière ligne :

find site.ru/ -type f -name "*.html" -exec sed -i "/var gaJsHost/,/catch(err)/d" () \;

De même, je supprime le formulaire d'ajout de commentaires :

J'efface 4 lignes avec des balises de fermeture non uniques après la ligne avec un motif unique :

find theredhaired.ru/ -type f -iname "*.html" -exec sed -i "/block_links/(N;N;N;N;s/\n.*//;)" () \;

Et maintenant, je découpe un bloc assez grand de 30 lignes, indiquant les motifs uniques de sa première ligne et de sa dernière :

find theredhaired.ru/ -type f -iname "*.html" -exec sed -i "/ Subscription/,/block_links/d" () \;

Vous pouvez, bien sûr, essayer de résoudre ces deux derniers cas en utilisant des modèles multilignes, mais je ne les ai jamais maîtrisés, peu importe mes recherches sur Google. J'ai trouvé beaucoup d'exemples multilignes, mais ils sont tous simples, sans caractères spéciaux ni caractères d'échappement (tabulations, sauts de ligne).

Peut-être que tout ce nettoyage sera plus facile à faire en PHP ou même en Perl, dont le but est le traitement de texte. Mais malheureusement, je ne les connais pas, alors j'utilise bash et sed.

J'ai fait tout ça sur copie séparée site avec un tas d'itérations, de tests, pour qu'il soit toujours possible d'annuler les modifications, j'ai sauvegardé des copies après chaque modification significative, toujours en utilisant rsync.

Comment modifier en masse des titres et d’autres éléments sur un site Web statique ?

Étant donné que mon objectif n'est pas seulement de ressusciter le site, mais de le faire indexer, classer dans les recherches et même d'obtenir du trafic provenant des recherches, je dois penser à une sorte de référencement. Les titres originaux ne me conviennent définitivement pas, j'ai donc envie de les changer. WordPress a hérité du schéma %sitename% » %postname%. De plus, le nom de notre site n'est pas clair – le domaine du site lui-même. L'option la plus simple consiste à découper la première partie du titre. Mais ça ne marche pas non plus pour moi. Je vais donc changer cette partie du titre en une demande délicate. Voici comment je procède :

Comme vous pouvez le constater, il y a beaucoup de contrôles et d'itérations. Mais au final, les titres deviennent ce dont ils ont besoin. Vous pouvez deviner que j'ai tenté de collecter du trafic vers ce site sur la base de demandes de restauration de sites à partir d'archives Web. Pourquoi ai-je besoin de cela - je vais fournir service payant pour restaurer de tels sites. Comme vous pouvez le constater, dans dans ce cas Il est assez simple de procéder à un remplacement. Il était possible de ne pas s'embêter avec plusieurs options, mais de tout résumer sous une seule. Mais je voulais supprimer ou modifier les symboles inutiles, et comme il y avait plusieurs options, je les ai remplacés par plusieurs des miens. C'est le référencement.

Je vais maintenant ajouter Yandex Metrica à tous les fichiers HTML de mon site. Et en même temps traduisez-le de ancien schéma www sur sans www.

Comment convertir un site Web statique de www en non-www ?

Cela se fait en remplaçant simplement :

find ./ -type f -iname '*.html' -exec sed -i 's/http:\/\/www.site.ru/http:\/\/site.ru/g' () \;

Ensuite, juste au cas où, dans la configuration de nginx nous ajouterons l'option avec www à la redirection :

serveur (
nom_du serveur www.site.ru ;
renvoie 301 $scheme://site.ru$request_uri ;
}

Comment créer un sitemap.xml pour un site statique ?

Cela sera nécessaire lorsque nous ajouterons le site aux moteurs de recherche. Ceci est très important, étant donné que notre site a été restauré, il se peut qu'il manque un peu de navigation et qu'il n'y ait aucun lien vers certaines pages. Le plan du site adoucit ce point - même si vous ne pouvez pas accéder à la page en passant par le site lui-même - en le précisant dans sitemap.xml, nous autoriserons son indexation, ce qui peut potentiellement générer du trafic issu directement de la recherche. à la page.

De plus, après un certain temps, je procéderai à une analyse des résultats que j'ai obtenus avec ce site. Trafic, prospects ou autre chose. Alors restez à l'écoute du site, dans 2 à 6 mois vous verrez la suite de l'histoire. Je vous montrerai la statistique, s'il y en a une, etc. Si vous lisez cet article six mois plus tard, et qu'il n'y a toujours pas de lien vers la suite, rappelez-le-moi dans les commentaires, s'il vous plaît :)

Vous avez compris, n'est-ce pas ?

Si vous êtes inspiré, que vous l'avez compris et que vous allez le faire vous-même - salut bas et respect pour vous. J'aime les gens qui veulent tout comprendre et tout comprendre.

Nous avons libéré nouveau livre« Marketing de contenu sur les réseaux sociaux : comment entrer dans la tête de vos abonnés et les faire tomber amoureux de votre marque. »

S'abonner

Les archives Web sont plateforme gratuite, où sont rassemblés tous les sites jamais créés et sur lesquels aucune interdiction n'est imposée quant à leur préservation.


Plus de vidéos sur notre chaîne - apprenez le marketing Internet avec SEMANTICA

Il s'agit d'une véritable bibliothèque dans laquelle n'importe qui peut ouvrir une ressource Web qui l'intéresse et consulter son contenu à la date à laquelle l'archive Web a visité le site et en a enregistré une copie.

Introduction à l'organisation d'archives ou comment Valéry a trouvé d'anciens textes des archives Web
En 2010, Valéry crée un site Internet sur lequel il écrit des articles sur le marketing Internet. Il en a écrit un sur la publicité sur Google (AdWords) sous la forme d'un bref résumé. Quelques années plus tard, il avait besoin de cette information. Mais la page contenant les textes a été supprimée par erreur par lui il y a quelque temps. Cela n'arrive à personne.

Cependant, Valéry a su se sortir de la situation. Il a ouvert en toute confiance le service d'archives Web et barre de recherche a entré l’adresse dont il avait besoin. Quelques instants plus tard, il lisait déjà le matériel dont il avait besoin et un peu plus tard, il a restauré les textes sur son site Internet.

Histoire création d'Internet Archive

En 1996, Brewster Kyle programmeur américain, a créé Internet Archive, où il a commencé à collecter des copies de sites Web avec toutes les informations qu'ils contiennent. Ceux-ci ont été entièrement conservés dans sous forme réelle pages, comme si vous aviez ouvert le site souhaité dans un navigateur.

Tout le monde peut utiliser les données des archives Web de manière entièrement gratuite. Lors de sa création, Brewster Kyle avait un objectif principal : préserver les valeurs culturelles et historiques de l'espace Internet et créer une vaste bibliothèque électronique.

En 2001, le principal service Internet Archive Wayback Machine a été créé, que l'on peut encore trouver aujourd'hui sur https://archive.org. C’est ici que des copies de tous sont disponibles gratuitement pour consultation.

Afin de ne pas se limiter à un ensemble de sites, ils ont commencé dès 1999 à archiver des textes, des images, des enregistrements sonores, des vidéos et des logiciels.

En mars 2010, lors de la remise annuelle des Free Software Awards, Internet Archive a reçu le titre de gagnant dans la catégorie Projet d'avantage social.

La bibliothèque s'agrandit chaque année et déjà en août 2016, le volume de Webarchive s'élevait à 502 milliards de copies de pages Web. Tous sont très bien conservés gros serveursà San Francisco, Nouvelle Alexandrie et Amsterdam.

Tout sur archive.org : comment utiliser le service et comment obtenir un site à partir d'une archive Web

Brewster Kyle a créé l'Internet Archive Wayback Machine, sans laquelle il est impossible d'imaginer le travail du marketing Internet moderne. Consultez l'historique de n'importe quel portail, voyez à quoi il ressemblait certaines pages plus tôt, restaurez votre ancienne ressource Web ou trouvez celle dont vous avez besoin et contenu intéressant- tout cela peut être fait en utilisant Webarchive.

Comment afficher l'historique du site sur archive.org

Merci, dans la bibliothèque d'archives Web, stockée la plupart Sites Internet avec toutes leurs pages. En outre, il enregistre toutes ses modifications. Ainsi, vous pouvez consulter l'historique de n'importe quelle ressource Web, même si elle n'existe plus depuis longtemps.

Pour ce faire, vous devez vous rendre sur https://web.archive.org/ et saisir l'adresse de la ressource Web dans la barre de recherche.

Après un certain temps, l'archive Web affichera un calendrier avec les dates de modifications apportées à cette page et des informations sur sa création et le nombre de modifications pour toute la période.

D'après les informations reçues, il ressort que page d'accueil notre site a été trouvé pour la première fois par le service le 24 mai 2014. Et depuis lors jusqu’à aujourd’hui, une copie de celui-ci a été sauvegardée 38 fois. Les dates de changements sur la page sont marquées en bleu sur le calendrier. Afin d'afficher l'historique des modifications et de voir à quoi ressemblait une certaine section d'une ressource Web le jour qui vous intéresse, vous devez sélectionner la période souhaitée dans le flux avec les années précédentes et une date dans le calendrier parmi celles proposées. par le service.

Dans un instant, l'archive Web ouvrira la version demandée sur sa plateforme, où vous pourrez voir à quoi ressemblait notre site dans sa forme originale.

Ensuite, à l'aide du calendrier doté de flèches tout en haut de l'écran, vous pourrez feuilleter les pages selon la chronologie de leurs évolutions afin de suivre l'évolution de apparence et leur contenu.

Ainsi, vous pourrez plonger dans le passé et voir tous les changements qui lui sont survenus tout au long de son existence.

Pourquoi vous ne découvrirez peut-être pas sur Webarchive à quoi ressemblait le site auparavant
Il arrive qu'un site Web ne puisse pas être trouvé en utilisant Service Internet Archiver la Wayback Machine. Et cela se produit pour plusieurs raisons :

  • le titulaire du droit d'auteur a décidé de supprimer toutes les copies ;
  • la ressource Web a été fermée conformément à la loi sur la protection de la propriété intellectuelle ;
  • V répertoire racine Plateformes Internet, une interdiction a été introduite via le fichier robots.txt

Pour que le site soit à tout moment dans les archives Web, il est recommandé de prendre des précautions et de le sauvegarder vous-même dans la bibliothèque Webarchive. Pour ce faire, dans la section Enregistrer la page maintenant, saisissez l'adresse de la ressource Web que vous souhaitez archiver, cliquez sur Bouton Enregistrer Page.

Ainsi, pour la sûreté et la sécurité de toutes les informations, il est nécessaire de répéter cette procédure à chaque changement. Cela donnera une garantie à 100% que vos pages seront enregistrées pendant longtemps.

Comment restaurer un site Web inactif à partir d'une archive Web

Il y a différentes situations, lorsque le navigateur signale que tel ou tel service web n'existe plus. Mais les données doivent être récupérées. Webarchive vous aidera.

Et pour cela, il existe deux options. Le premier convient aux sites anciens, de petite taille et bien indexés. Extrayez simplement les données la version requise. Ensuite, le code de la page est révisé et les liens sont peaufinés manuellement. Le processus demande beaucoup de travail en termes de temps et d’étapes. Il existe donc une autre méthode, plus optimale.

La deuxième option est idéale pour ceux qui souhaitent gagner du temps et résoudre le problème de téléchargement aussi rapidement et facilement que possible. Pour ce faire, vous devez ouvrir le service de récupération de site depuis Webarchive - RoboTools. Entrer nom de domaine portail d'intérêt et indiquer la date de sa version enregistrée. Après un certain temps, la tâche sera terminée en en entier, avec toutes les pages remplies.

Comment trouver du contenu à partir d'une archive Web

Webarchive est une merveilleuse source pour remplir les ressources Web avec des textes intégraux. Il existe de nombreux sites qui, pour diverses raisons, ont cessé d'exister, mais contiennent des informations utiles et informations nécessaires. Qui n'est pas inclus dans les index moteurs de recherche, et est essentiellement non répétitif.

Il existe donc des domaines gratuits qui stockent beaucoup matériel intéressant. Tout ce que vous avez à faire est de trouver un contenu approprié et de vérifier son caractère unique. C'est très rentable, à la fois financièrement - car vous n'aurez pas besoin de payer pour le travail des auteurs, et en temps - car tout le contenu est déjà écrit.

Comment empêcher un site d'être inclus dans la bibliothèque d'archives Web

Il existe des situations où le propriétaire d'un site Internet apprécie les informations publiées sur son portail et ne souhaite pas qu'elles soient accessibles à un large cercle. Dans de telles situations, il existe une solution simple : dans le fichier robots.txt, écrivez une directive interdite pour Webarchive. Après cette modification des paramètres, la machine Web ne créera plus de copies d'une telle ressource Web.

Bonjour, chers lecteurs du site blog. Il n’y a pas si longtemps, j’ai écrit sur quelque chose qui mérite certainement toutes sortes d’épithètes flatteuses, malgré ses petites lacunes et les critiques de ses articles de la part de la communauté scientifique.

Le fait même qu'un projet à but non lucratif fonctionne depuis des décennies au profit de l'ensemble de la communauté Internet mérite un grand respect. Mais il existe également un projet similaire à grande échelle sur Internet, qui, sans en tirer aucun revenu, joue un rôle très important : il préserve les archives de sites Web, de vidéos, de documents audio et imprimés.

Ce qui est remarquable, c'est que la dernière colonne de cette liste (qui peut être ouverte dans Excel) affichera le nombre d'archives créées pour chaque site dans l'archive Web (vous pouvez cependant vérifier la disponibilité d'un domaine dans l'archive Web en un certain nombre de services en ligne, par exemple, sur ceci ou sur ceci).

Une liste des noms de domaines bourgeois en cours de libération ou déjà libérés est téléchargeable à partir de ce lien. Eh bien, nous parcourons ensuite le contenu des sites enregistrés par les archives Web et essayons de trouver quelque chose d'intéressant. Ensuite, nous vérifions le caractère unique de ces matériaux (j'ai fourni le lien juste au-dessus) et, en cas de succès, les publions sur notre ressource, ou les vendons dans certaines.

Oui, la méthode est fastidieuse et n’a pas été testée par moi personnellement. Mais je pense qu’avec un certain degré d’automatisation et de réflexion, cela peut produire de bons résultats. Il est probable que quelqu'un l'ait déjà mis en ligne. Qu'en penses-tu?

Bonne chance à vous ! A bientôt sur les pages du site blog

Vous pouvez regarder plus de vidéos en allant sur ");">

Vous pourriez être intéressé

Comparaison des sites dans SEObuilding.RU pour une analyse gratuite des donateurs potentiels lors de l'achat de liens
Service en ligne gratuit pour sélectionner des domaines magnifiques et gratuits à enregistrer (Frishki.ru)
Banques de photos et banques de photos - 30 sources légales gratuites de photos, images et icônes
SEObuilding.RU - complet analyse gratuite sites avec calcul de leur confiance, coût et bien plus encore
Vérification du site (analyse) - 85 services et programmes en ligne

Il existe un projet à grande échelle sur Internet qui, sans en tirer aucun revenu, joue un rôle très important : il préserve les archives de sites Web, de vidéos, de documents audio et imprimés.

Il s'agit de web.archive.org - un projet mondial avec, semble-t-il, mission impossible- créer une archive de tous les sites jamais publiés sur Internet. De plus, les sites ne sont pas enregistrés sous forme de captures d'écran, mais sous la forme de pages Web entièrement fonctionnelles avec tous les liens, images et styles (CSS). De plus, pour chaque site, au cours de son existence sur le réseau, cette archive peut accumuler plusieurs centaines d'exemplaires, datés à différentes étapes durée de vie des ressources.

Comment utiliser les archives des sites Internet ?

Comment cette webarchive peut-elle être utile ?

  • Tout d’abord, vous pouvez vous plonger dans une agréable nostalgie en parcourant votre site d’il y a de nombreuses années. Il sera possible de retracer l'historique des modifications pour toute autre ressource Internet (le message contient des captures d'écran d'articles sur Aport, aujourd'hui décédé, de cette archive Web, et les captures d'écran illustrant l'évolution de la page principale de Yandex ont la même origine).
  • Mais ce n'est pas tout. Si la page d'un site que vous avez mis en signet ne s'ouvre pas, vous pouvez bien sûr essayer de la récupérer à partir du cache Yandex ou Google (en savoir plus sur la meilleure façon de rechercher sur Google). Mais si la ressource n'est pas disponible depuis très longtemps, alors liens morts Il ne sera plus possible de l'ouvrir ailleurs que sur archive.org (même s'il ne sera peut-être pas là non plus pour les raisons décrites ci-dessous).
  • De plus, si pour une raison farfelue vous n'avez pas effectué de sauvegarde de votre site, cette archive Web sera le seul moyen de restaurer votre site. Il est possible de supprimer tous les liens de web.archive.org et de les rendre directement vers votre ressource (lisez cela ci-dessous).
  • Eh bien, la dernière chose qui me vient à l’esprit est la recherche de contenu unique. Si vous n'êtes pas en mesure de créer vous-même un contenu unique pour le site (écrire des articles), vous pouvez vous les procurer ici, même si vous devrez quand même faire un effort. L’essentiel est que de nombreux sites meurent et deviennent indisponibles avec leur contenu.

    Après avoir trouvé de telles ressources, vous pouvez extraire des textes des archives Internet et les placer sur votre site, après avoir d'abord vérifié leur caractère unique. De cette façon, vous ne plagiez pas et ne violez pas le droit d'auteur (copyright), mais la recherche dans les archives Web peut sembler pour beaucoup une tâche très fastidieuse.

    Le service en ligne Webarchive remonte à 1996. La tâche assignée au projet semblait impossible, même en tenant compte du fait qu'à cette époque, il y avait beaucoup moins de sites sur Internet qu'aujourd'hui (de plusieurs ordres de grandeur). Au début, les sites n'étaient pas archivés très souvent, mais au fil du temps, en augmentant la capacité de stockage, Web Archive a commencé à créer de plus en plus d'instantanés de sites.

    Cette archive Web n'est entrée dans la base de données qu'en 1997, et sa page principale ressemblait alors à ceci :

    Désormais, cette organisation à but non lucratif s'occupe de tout (y compris l'audio, la vidéo et les livres numérisés). espace disque d'une taille monstrueuse, mesurée en dix octets suivis de quinze zéros. Le site dispose de miroirs dans divers centres de données et le projet lui-même a récemment reçu statut officiel bibliothèques. Si l'on considère uniquement les archives des pages de sites Web, il y en a déjà environ cent milliards (cela prend en compte toutes les impressions de pages jamais prises et enregistrées).


    Vous pouvez également naviguer dans les archives grâce à la chronologie située en haut de la page, où des lignes noires verticales marquent les impressions disponibles pour ce site. Parfois, les archives Web peuvent être brisées, vous devrez alors ouvrir l'instantané le plus proche.

    En cliquant sur le cercle bleu, nous pouvons voir des liens vers plusieurs archives qui diffèrent par l'époque à laquelle elles ont été supprimées.

    Il est possible que cela soit fait pour éviter la perte de données due à des dommages inévitables. disques durs dans les installations de stockage. En allant consulter une des archives web, vous verrez une copie de la vôtre (en dans cet exemple mon) site Web avec des liens internes fonctionnels et un style connecté. C'est vrai que cela ne fonctionne pas parfaitement.

    Par exemple, certaines de mes conceptions étaient encore biaisées et menu latéral fonctionnant sur JavaScript a complètement disparu :

    Mais ce n’est pas si important, car ce menu est naturellement présent dans le code source de la page web.archive.org. Cependant, vous ne pourrez pas simplement copier le texte de cette page sur votre site Web pour remplacer celui perdu. Pourquoi? Oui, car voyager à l'intérieur d'un site du passé ne sera possible que si tous les liens internes sont remplacés par ceux générés par Webarchive (sinon vous seriez redirigé vers version moderne ressource).

    Il est clair qu'il sera possible de couper manuellement la partie introductive des liens (http://web.archive.org/web/20111013120145/), obtenant ainsi une version de travail. Vous pouvez même automatiser ce processus à l'aide de l'outil de recherche et de remplacement de l'éditeur Notepad, mais il sera encore plus facile d'utiliser la capacité intégrée à ce service pour remplacer les liens internes par les liens originaux.

    Pour ce faire, copiez l'adresse de la page avec la copie souhaitée de votre site (depuis la barre d'adresse du navigateur - commence par http://web.archive.org/). Cela ressemblera à ceci :

    Et insérez-y la construction « id_ » à la fin de la date (20111013120145) pour que cela ressemble à ceci :

    Renvoyez maintenant l'adresse modifiée à barre d'adresse navigateur et appuyez sur Entrée. Après cela, la page avec les archives de votre site sera mise à jour et c'est tout. liens internes deviendra droit. Il sera possible de copier le texte de l'article depuis code source archives Web.

    Il est clair que restaurer un immense site de cette manière prendra un temps monstrueux, mais lorsqu'il n'y a pas d'autre option, même cela semblera comme une manne tombée du ciel. De plus, seuls les webmasters débutants qui souffrent d'une perte irréversible de contenu souffrent généralement de peu de ce contenu, tandis que les propriétaires de sites plus ou moins expérimentés, qui ont été brûlés plus d'une fois par des choses similaires, effectuent cinq sauvegardes de fichiers et de bases de données. fois par jour.

    Si vous souhaitez voir toutes les pages de votre site Web (ou de celui de quelqu'un d'autre) contenues dans les profondeurs de ce mastodonte, alors vous devrez coller l'adresse suivante dans la barre d'adresse de votre navigateur et appuyer sur Entrée :

    Vous pouvez utiliser le vôtre à la place de mon domaine. Sur la page qui s'ouvre, vous pourrez appliquer un filtre dans le formulaire prévu à cet effet :

    Comment extraire de Webarchive contenu unique pour le site

    Personnellement, je n'ai pas utilisé la méthode décrite ci-dessous, mais en théorie, tout devrait fonctionner. L'idée m'est venue de cette jeune ressource, où toutes les étapes étaient décrites. Le principe de la méthode est que des dizaines de sites meurent chaque jour et ne sont jamais relancés.

    Il peut y avoir de nombreuses raisons à cela, et la plupart des ressources qui sont mortes dans Bose n'ont jamais représenté une valeur particulière en termes de contenu. Mais il y a des exceptions à chaque règle, et il suffit de séparer le bon grain de l’ivraie. L'essentiel est que les sites disparus avec un contenu plus ou moins digestible soient représentés dans les archives Web, au moins en un exemplaire.

    Parce que après la mort, le contenu de ces sites disparaîtra progressivement de l'index des moteurs de recherche, puis en le retirant des archives Internet, vous deviendrez, en théorie, son propriétaire légitime et la principale source des moteurs de recherche. Ce serait formidable si tel était le cas (il est possible que pendant la durée de vie de la ressource, elle ait été copiée et collée sans pitié). Mais au-delà du problème de l’unicité des textes, se pose celui de leur recherche.

    Premièrement, nous avons besoin d’une liste de sites qui mourront bientôt ou qui sont déjà morts. L'auteur de la méthode suggère de télécharger une liste des domaines libérés ou déjà publiés à partir du site Web du registraire de noms de domaine Nic.ru.

    Ce qui est remarquable, c'est que la dernière colonne de cette liste (elle peut être ouverte dans Excel) affichera le nombre d'archives créées pour chaque site dans l'archive Web (vous pouvez cependant vérifier la disponibilité d'un domaine dans l'archive Web en un certain nombre de services en ligne, par exemple, sur ceci ou sur ceci).

    Une liste des noms de domaines bourgeois en cours de libération ou déjà libérés est téléchargeable à partir de ce lien. Eh bien, nous parcourons ensuite le contenu des sites enregistrés par les archives Web et essayons de trouver quelque chose d'intéressant. Ensuite, nous vérifions le caractère unique de ces documents (j'ai fourni le lien juste au-dessus) et, en cas de succès, les publions sur notre ressource ou les vendons sur un échange de contenu.

    Oui, la méthode est fastidieuse et n’a pas été testée par moi personnellement. Mais je pense qu’avec un certain degré d’automatisation et de réflexion, cela peut produire de bons résultats. Il est probable que quelqu'un l'ait déjà mis en ligne. Qu'en penses-tu?

    Chaque site est une histoire qui a un début et une fin. Mais comment retracer les étapes de formation du projet, sa cycle de vie? À ces fins, il existe service spécial, appelée archive Web. Dans cet article nous parlerons de présentation ressources similaires, leur utilisation et leurs capacités.

    Qu'est-ce qu'une archive Web et pourquoi est-elle nécessaire ?

    Une archive Web est un site spécialisé conçu pour collecter des informations sur diverses ressources Internet. Le robot enregistre automatiquement une copie des projets et mode manuel, tout dépend du site et du système de collecte de données.

    Sur moment actuel il existe plusieurs dizaines de sites avec des mécanismes et des tâches similaires. Certains d’entre eux sont considérés comme privés, d’autres sont des projets à but non lucratif ouverts au public. Les ressources diffèrent également les unes des autres par la fréquence des visites, l'exhaustivité des informations stockées et les possibilités d'utilisation de l'historique reçu.

    Comme le notent certains experts, les pages de stockage de flux d'informations sont considérées comme un élément important du Web 2.0. Cela fait partie de l’idéologie du développement d’Internet, qui est en constante évolution. Les mécanismes de collecte sont très médiocres, mais il n'existe pas de méthodes ou d'analogues plus avancés. Grâce à une archive web, vous pouvez résoudre plusieurs problèmes : suivi des informations dans le temps, restauration d'un site perdu, recherche d'informations.

    Comment utiliser les archives Web ?

    Comme indiqué ci-dessus, une archive Web est un site qui fournit un certain type de service de recherche historique. Pour utiliser le projet, vous devez :

  • Accédez à une ressource spécialisée (par exemple, web.archive.org).
  • Saisissez les informations pour la recherche dans le champ spécial. Cela peut être un nom de domaine ou un mot-clé.
  • Obtenez des résultats pertinents. Il s’agira d’un ou plusieurs sites, chacun ayant une date d’exploration fixe.
  • En cliquant sur une date, accédez à la ressource correspondante et utilisez les informations à des fins personnelles.
  • Nous parlerons plus tard des sites spécialisés pour la recherche d’archives historiques de projets, alors restez avec nous.

    Projets qui fournissent l'historique du site

    Il existe aujourd'hui plusieurs projets qui fournissent services pour trouver des copies enregistrées. En voici quelques-uns :

  • Le plus populaire et le plus demandé parmi les utilisateurs est web.archive.org. Le site présenté est considéré comme le plus ancien d'Internet ; sa création remonte à 1996. Le service est effectué automatiquement et collecte manuelle données, et toutes les informations sont hébergées sur d’énormes serveurs étrangers.
  • Le deuxième site le plus populaire est peeep.us. La ressource est très intéressante, car elle peut être utilisée pour sauvegarder une copie du flux d'informations qui n'est accessible qu'à vous. Notez que le projet fonctionne avec tous les noms de domaine et élargit les limites de l'utilisation des archives Web. Quant à l'exhaustivité des informations, le site présenté n'enregistre pas d'images ni de cadres. Depuis 2015, il figure également sur la liste des produits interdits en Russie.
  • Un projet similaire à celui décrit ci-dessus est archive.is. Les différences incluent l'exhaustivité de la collecte d'informations, ainsi que la possibilité d'enregistrer des pages à partir de réseaux sociaux. Par conséquent, si vous avez perdu un message ou informations intéressantes, vous pouvez effectuer une recherche dans les archives Web.
  • Possibilité d'utiliser des archives web

    Désormais, tout le monde sait ce qu'est une archive Web et quels sites proposent des services pour enregistrer des copies de projets. Mais beaucoup ne comprennent toujours pas comment utiliser les informations présentées. Les capacités des données archivées s'expriment comme suit :

  • Choisir un nom de domaine. Ce n'est un secret pour personne que de nombreux webmasters utilisent des domaines déjà mis à niveau. Il vaut la peine de comprendre que utilisateurs expérimentés suivre non seulement les paramètres cibles, mais également l'historique utilisation précédente. Chaque utilisateur du réseau veut savoir ce qu'il achète : s'il y a eu auparavant des interdictions ou des sanctions, si le projet a été soumis à des filtres.
  • Restaurer un site à partir d'archives. Parfois, une catastrophe se produit et menace votre existence propre projet. Manque de sauvegardes en temps opportun dans le profil d'hébergement et erreur aléatoire peut conduire à une tragédie. Si cela se produit, ne vous inquiétez pas, car vous pouvez utiliser les archives Web. Nous parlerons du processus de récupération ci-dessous.
  • Recherchez du contenu unique. Chaque jour, des sites remplis de contenu meurent sur Internet. Cela se produit avec une cohérence particulière, c'est pourquoi un énorme flux d'informations est perdu. Au fil du temps, ces pages disparaissent de l'index et un webmaster ingénieux peut emprunter les informations pour un projet personnel. Bien sûr, il y a un problème de recherche, mais c'est une préoccupation secondaire.
  • Nous avons examiné les principales fonctionnalités offertes par les archives Web. Il est maintenant temps de passer à une étude plus détaillée des éléments individuels.

    Restaurer un site Web à partir d'une archive Web

    Personne n’est à l’abri des problèmes liés aux sites Web. La plupart d'entre eux sont résolus à l'aide de sauvegardes. Mais que se passe-t-il s’il n’y a pas de copie enregistrée sur le serveur d’hébergement ? Utilisez les archives Web. Pour ce faire, vous devez :

  • Accédez à la ressource spécialisée dont nous avons parlé plus tôt.
  • Entrez votre propre nom de domaine dans la barre de recherche et ouvrez le projet dans une nouvelle fenêtre.
  • Choisissez la photo la plus réussie, située plus près de la date du problème et offrant une vue à part entière.
  • Corrigez les liens internes pour diriger les liens. Pour ce faire, utilisez le lien « http://web.archive.org/web/any_sequence_number_id_/Site name ».
  • Copie informations perdues ou des données de conception à appliquer pour la restauration.
  • Notez que le processus est quelque peu fastidieux, compte tenu de la rapidité de l'archive. Par conséquent, nous recommandons aux propriétaires de ressources Web volumineuses d'effectuer des sauvegardes plus souvent, ce qui permettra d'économiser du temps et des nerfs.

    Nous recherchons du contenu unique pour notre propre site Web

    Certains webmasters utilisent manière intéressante en obtenir un nouveau, personne contenu requis. Chaque jour, des centaines de sites tombent dans l'oubli et des informations se perdent avec eux. Pour devenir propriétaire de contenu, vous devez procéder comme suit :

  • Entrez l'URL
    https://www.nic.ru/auction/forbuyer/download_list.shtml#buying dans la barre de recherche.
  • Sur le site d'enchères de noms de domaine, téléchargez des fichiers portant le nom ru.
  • Ouvrir les fichiers reçus de utiliser Excel et commencez la sélection en fonction de la disponibilité des informations de conception.
  • Saisissez les projets trouvés dans la liste sur la page de recherche des archives Web.
  • Ouvrez l'instantané et accédez au flux d'informations.
  • Nous vous recommandons de surveiller le contenu contre le plagiat, cela vous permettra de trouver des textes vraiment dignes. Et c'est tout ! Désormais, tout le monde connaît les possibilités et les méthodes d'utilisation d'une archive Web. Utilisez vos connaissances de manière judicieuse et rentable.



    Des questions ?

    Signaler une faute de frappe

    Texte qui sera envoyé à nos rédacteurs :