Pour gérer vos consentements :
Categories: Cloud

Pour en finir avec les liens morts?

Selon Andrei Broder, vice président chez Altavista, un lien sur cinq mène à l’irritant message « Error 404, page not found » (page inaccessible). L’essence même du Web repose sur les liens hypertextes, c’est-à-dire ceux sur lesquels on clique pour passer d’une page à une autre. Quand ça marche, le procédé est quasiment magique. En revanche, lorsque l’on tombe sur un lien mort, qui ne mène donc nulle part, cela devient particulièrement frustrant. Deux chercheurs de l’université de Berkeley, en Californie, viennent de proposer une méthode qui pourrait éviter un grand nombre de ces liens sans issue.

Leur réflexion repose sur un postulat de base très simple qui veut qu’en règle générale, le document vers lequel pointait le lien n’a pas disparu. C’est plutôt l’adresse du document qui a changé. L’idée est donc d’adjoindre à l’adresse d’une page Web, autrement appelée URL pour Uniform Resource Locator, un certain nombre de mots décrivant de façon précise et quasi unique le contenu du document que l’on souhaite atteindre. Une des découvertes majeures des deux scientifiques, Robert Wilensky et Thomas Phelps, est qu’un maximum de cinq mots suffirait pour désigner à coup sûr un document de façon unique. Le principe repose sur la sélection des mots qui sont les plus fréquemment utilisés dans le document tout en étant les moins utilisés dans tous les autres documents du Web. Un état désigné par les termes anglais « term frequency and inverse document frequency value ». Selon les auteurs de la recherche, le calcul d’une telle valeur est très facilement automatisable. Il suffit de compter le nombre d’occurrences de chaque mot dans un document, de classer les résultats par ordre décroissant, et d’interroger un moteur de recherche pour chacun d’eux afin d’en connaître la fréquence d’utilisation sur le Web. On obtient en fin de course une signature « lexicale » unique. Selon les chercheurs Wilensky et Phelps, 5 mots sont un maximum et un plus petit nombre devrait suffire.

Une fois déterminée cette signature unique, il suffit de l’ajouter à l’adresse URL classique. Selon les deux chercheurs, cette méthode dite de « liens robustes » répond à tous les impératifs de la navigation sur Internet. Une grande efficacité tout d’abord, sans pour autant trop influer sur les performances si le lien fonctionne normalement, ce qui est vrai dans 80 % des cas tout de même.

Le seul problème, finalement, est la nécessité de modifier, même de façon minime, les butineurs pour qu’ils soient capables de lancer une recherche sur un moteur avec les mots clés accolés à l’URL. Et il faudra également créer les liens incluant les mots clés. Ce qui demanderait certainement une certaine discipline de la part des créateurs de pages.

Andrei Broder, qui a également travaillé dans ce domaine, pense pour sa part qu’un document peut être identifié de façon unique à l’aide de 8 mots. Le principal risque de la méthode, explique-t-il, tient au fait que la signature lexicale peut reposer sur des mots qui peuvent disparaître des documents, comme les mots mal orthographiés et corrigés après la définition de la signature.

Recent Posts

Cybersécurité : attention aux QR codes dans les PDF

Les attaques de phishing utilisant des QR codes frauduleux intégrés dans des documents PDF joints…

2 semaines ago

Windows 11 : une mise à jour majeure apporte de nouvelles fonctionnalités

Microsoft a amorcé le déploiement de Windows 11 24H2. Passage en revue des nouvelles fonctionnalités…

1 mois ago

Microsoft 365 : comment Copilot se déploie dans toutes les applications

L'intégration de Copilot dans la suite bureautique s'accélère. Où trouver l'assistant IA et comment l'utiliser…

2 mois ago

PC Copilot + : Microsoft veut garder Recall

Microsoft annonce une phase expérimentale pour lancer Recall sur les PC Copilot+. Elle doit commencer…

3 mois ago

Windows 11 : comment Microsoft va réduire la taille des mises à jour

Comment réduire la taille des mises à jour de Windows 11 ? Microsoft annonce la…

4 mois ago

Windows 11 : comment Bloc-notes va remplacer WordPad

Déjà doté de la sauvegarde automatique, d'un compteur de caractères et de Copilot, Bloc-notes embarque…

4 mois ago