Pour gérer vos consentements :
Categories: Cloud

500 milliards de pages sur le Web !

Le moteur de recherche Google, qui propose depuis peu une barre d’outils pour IE 5 sous Windows (voir édition du 12 décembre 2000), a beau se vanter de donner accès à plus d’un milliard de pages (voir édition du 29 juin 2000), il lui reste encore du pain sur la planche. En effet, la société Bright Planet estime quant à elle que le Web serait plutôt formé de 500 milliards de pages ! Et d’indiquer que les moteurs de recherche traditionnels ne surfent que sur la surface du Web, sans tenir compte des pages cachées en profondeur et qui formeraient donc la plus large majorité. Pour prouver sa théorie, elle se base sur l’utilisation d’un moteur maison, baptisé Lexibot, dont on peut télécharger un exemplaire sur son site.

Les pages dynamiques ne sont pas indexables par les moteurs traditionnels

La théorie de Bright Planet repose sur le fait que de plus en plus de sites proposent des contenus sous forme de pages dynamiques, c’est-à-dire « fabriquées » à la demande à partir de bases de données, plutôt qu’à l’aide de pages statiques. Ce qui est d’ailleurs notre cas à VNUnet.fr. Et souvent, ces pages ne sont accessibles qu’au travers du propre moteur de recherche du site, capable de chercher directement dans les bases. Résultat, ces pages dynamiques sont invisibles aux moteurs de recherche du Web, comme Google, Altavista ou AllTheWeb, dont le principe repose sur l’utilisation de robots d’indexation allant de liens en liens. Le programme Lexibot, lui, identifie les champs de recherche des sites, s’en sert pour effectuer des requêtes et indexe le contenu des pages de résultats.

En mai dernier, une équipe formée d’ingénieurs d’IBM, de Compaq et d’Altavista avait montré que le Web était finalement loin de ressembler à la fameuse toile d’araignée qui sert toujours à le décrire, mais avait plutôt la forme générale d’un noeud papillon, d’où s’échapperait une multitude de filaments (voir l’étude sur le site d’IBM). Après avoir épluché l’index d’Altavista, les chercheurs ont en effet déterminé quatre catégories de pages. Le coeur est constitué des pages connectées les unes aux autres. A partir de l’une d’elles, on peut accéder à toutes les autres pages de ce coeur. L’aile gauche du noeud pap’ est constitué des pages qui permettent d’accéder à ce coeur, le voyage de retour étant impossible. L’aile droite regroupe les pages auxquelles on peut accéder du coeur, sans retour possible non plus. Reste donc les filaments, constitués de tout un ensemble de pages « déconnectées », reliées à l’une ou l’autre des ailes du papillon mais qui ne permettent pas d’atteindre le coeur. Il semble donc que la photographie faite à l’époque était loin d’être complète.

Pour en savoir plus :

Un résumé de la théorie (en anglais)

Recent Posts

Cybersécurité : attention aux QR codes dans les PDF

Les attaques de phishing utilisant des QR codes frauduleux intégrés dans des documents PDF joints…

3 semaines ago

Windows 11 : une mise à jour majeure apporte de nouvelles fonctionnalités

Microsoft a amorcé le déploiement de Windows 11 24H2. Passage en revue des nouvelles fonctionnalités…

2 mois ago

Microsoft 365 : comment Copilot se déploie dans toutes les applications

L'intégration de Copilot dans la suite bureautique s'accélère. Où trouver l'assistant IA et comment l'utiliser…

2 mois ago

PC Copilot + : Microsoft veut garder Recall

Microsoft annonce une phase expérimentale pour lancer Recall sur les PC Copilot+. Elle doit commencer…

3 mois ago

Windows 11 : comment Microsoft va réduire la taille des mises à jour

Comment réduire la taille des mises à jour de Windows 11 ? Microsoft annonce la…

4 mois ago

Windows 11 : comment Bloc-notes va remplacer WordPad

Déjà doté de la sauvegarde automatique, d'un compteur de caractères et de Copilot, Bloc-notes embarque…

4 mois ago