Google franchit le cap du trillion d’adresses Web identifiées

Mobilité

Google vient de dépasser un cap « historique » en ce qui concerne le nombre d’URL identifiées par son « spider ».

Le nombre de sites Internet a atteint le trillion déclare Google. Le géant de la recherche déclare que ses bases de données ont catalogué ce nombre gigantesque par le compte d’URL, via l’enregistrement de chaque lien sur une page.

Ce record historique a été atteint dix ans après que Google a révélé son premier décompte de sites, avec un total 26 millions de sites. En 2000, ce nombre était passé à un milliard.

Les développeurs de logiciels Jesse Alpert et Nissan Hajaj ont déclaré dans un post sur un blog de la société, que ce chiffre correspond à des adresses URL, et non à des pages Web réelles.

« En fait, le nombre de pages est infini » ont-ils expliqué. « Les calendriers Web par exemple, peuvent être affectées d’un lien « Jour suivant » et nous pourrions suivre ce lien indéfiniment en trouvant une « nouvelle » page à chaque fois. »

L’expansion du Web implique une évolution des capacités d’indexation. D’après ces deux développeurs, aux débuts d’Internet, Google pouvait traiter et classer chacune des 26 millions de pages composant le Web en utilisant une seule station de travail.

De nos jours, calculer le PR (Page Rank ou Rang de page) des pages revient à indexer et à classer 50 000 fois chaque intersection des USA.

« Pour traiter un tel volume d’informations, nous avons dû faire considérablement évoluer nos systèmes, depuis le traitement du premier ensemble de données Web traité par Google pour la réponse aux requêtes » déclarent Alpert et Hajaj. « De nos jours, Google télécharge le Web continuellement, collectant des informations de pages à jour et recalculant l’intégralité du graphe de liens Web plusieurs fois par jour ».

Adaptation de l’article Web address total tops one trillion de Vnunet.com en date du 25 juillet 2008.