1 milliard de pages Web
Internet n’en finit pas de croître. Alors qu’on estimait à 800 millions le nombre de pages Web en été dernier, on aurait aujourd’hui atteint le milliard. Dans le même temps, les index des moteurs de recherche rattrapent leur retard.
Selon une étude réalisée conjointement par l’institut Nec Research et Inktomi, développeur de logiciels de recherche sur Internet, la Toile contiendrait aujourd’hui plus d’un milliard de pages. « Notre étude a vérifié l’existence de plus d’un milliard de pages Web uniques indexables » a précisé Steve Lawrence, un chercheur spécialisé dans le domaine. L’été dernier, un article de la revue américaine Nature se faisait l’écho d’une première évaluation du nombre de pages Web, réalisée, entre autres, par le même personnage. A l’époque, il en avait évalué le nombre à 800 millions. La croissance est impressionnante. Incidemment, l’étude nous apprend également que ces pages correspondent à 4,2 millions de sites publics et que 86 % d’entre elles sont rédigées en anglais. Le français ne représentant que 2 % du total.
Comme il n’est évidemment pas question de visiter toutes les pages pour les compter une à une, les chercheurs avaient mis au point une méthode d’estimation. En se connectant à un pool de 2 500 adresses, ils avaient calculé qu’environ une sur 269 correspondait à un serveur Web. Sur ce pool d’adresses, seules 20 % d’entre elles se révèlèrent indexables, l’accès aux autres étant protégé par des firewalls. Ils ont ensuite multiplié ce pourcentage de pages accessibles par le nombre total d’adresses IP disponible, c’est-à-dire 256 à la puissance 4. Cela donnait 800 millions cet été.
Au delà de l’information brute, ces chercheurs avaient du coup posé une question de fond concernant le retard des moteurs de recherche. Cet été, ils avaient déterminé que le meilleur des moteurs, Northern Light à l’époque, n’indexait que 16 % des pages Web. Et en agrégeant les index de tous les moteurs de recherche, on n’avait pourtant accès qu’à 42 % du Web ! La plupart des responsables des moteurs s’étaient alors défendus en arguant de l’énorme investissement financier que nécessiterait une indexation quasi-exhaustive du Web. Pour un résultat pas forcément pertinent, affirmaient-ils.
Pourtant, les résultats de Steve Lawrence semblent avoir eu l’effet d’un électrochoc. Les plus gros moteurs de recherche se sont engagés dans une course à la surenchère d’indexation. Dernier record en date, le moteur All The Web, annonce indexer aujourd’hui 300 millions de pages Web, soit 30 % du total estimé. Selon le site Search Engine Watch, les deux suivants sur le podium seraient Alta Vista avec 250 millions de pages et Northern Light qui proposerait un index de 208 millions de pages.
Malgré cette masse incroyable d’information, All The Web affirme être en mesure de trouver une réponse en une demi-seconde ! Et c’est vrai que le moteur est incroyablement rapide. Pour éviter les bouchons, un chercheur japonais de l’université de Tokyo affirme également travailler sur une méthode de recherche sur le Réseau 20 fois plus rapide que les méthodes actuelles. On ne connaît pas les détails de sa méthode. On sait seulement qu’elle combine les connexions terrestres aux connexions satellites pour accélérer les recherches de données. Le système sera de toutes façons réservé dans un premier temps aux chercheurs et aux étudiants des universités.
Pour en savoir plus :
* Inktomi