Pour gérer vos consentements :
Categories: Cloud

Un projet fou d’archivage du Web

Entre 30 et 100 To de données, tel serait le « poids » du Web estimé par Scott Kirkpatrick, un chercheur retraité d’IBM. Pourquoi s’est-il amusé à le calculer ? Tout simplement parce qu’il a pour projet d’archiver toutes les pages de la Toile accessibles au public ! The Archive, c’est le nom du projet, a pour but de faire passer les bibliothèques à l’heure du numérique. Il s’agit d’éviter que « l’Internet, un nouveau média porteur d’une importante signification historique, ne disparaisse dans le passé, » trouve-t-on comme explication sur le site de cette très grande bibliothèque du Web.

La tâche est immense vu que le contenu du Web change en permanence. Avec des comportements variant d’un extrême à l’autre : certaines pages semble vouloir rester en ligne pour l’éternité alors que d’autres disparaissent quasiment d’un jour à l’autre. Et c’est pour éviter l’oubli que l’Archive a emmagasiné, pour le moment, environ 30 à 35 To de données. Soit environ 1,2 milliard de pages. Si on estime aujourd’hui le nombre total de pages Web entre 1 et 4 milliards (la largeur de la fourchette d’estimation rendant compte de la difficulté du comptage), il ne faut pas oublier que le projet d’archivage a pour ambition de sauvegarder les évolutions du Web. Résultat, certaines pages, dont seul le contenu change mais pas l’adresse URL, sont archivées tous les jours…

Comme tribut à l’histoire du Web, la bibliothèque a fabriqué une « sculpture » composée de quatre écrans informatiques qui font défiler des pages du Web tel qu’il était en 1997. On peut voir une démonstration de cette oeuvre d’art sur le site de l’Archive. Comme quoi le Web peut déjà faire naître un sentiment nostalgique…

Pour en savoir plus :

Le site de The Archive

Recent Posts

PC Copilot+ : une porte d’entrée vers l’ IA locale ?

Equipés de NPU, les PC Copilot+ peuvent déployer des LLM en local. Un argument suffisant…

2 semaines ago

PCIe 5.0 : La révolution des cartes-mères est-elle en marche ?

Que vous soyez un novice dans le domaine informatique, ou avec un profil plus expérimenté,…

3 semaines ago

Cybersécurité : attention aux QR codes dans les PDF

Les attaques de phishing utilisant des QR codes frauduleux intégrés dans des documents PDF joints…

2 mois ago

Windows 11 : une mise à jour majeure apporte de nouvelles fonctionnalités

Microsoft a amorcé le déploiement de Windows 11 24H2. Passage en revue des nouvelles fonctionnalités…

3 mois ago

Microsoft 365 : comment Copilot se déploie dans toutes les applications

L'intégration de Copilot dans la suite bureautique s'accélère. Où trouver l'assistant IA et comment l'utiliser…

3 mois ago

PC Copilot + : Microsoft veut garder Recall

Microsoft annonce une phase expérimentale pour lancer Recall sur les PC Copilot+. Elle doit commencer…

4 mois ago