Pour gérer vos consentements :
Categories: Mobilité

Sites web : les fichiers robots.txt avantagent Google

Selon une nouvelle étude, les webmasters qui contrôlent l’accès automatique à leur site via des fichiers ‘robots.txt’ avantagent Google par rapport aux autres moteurs de recherche. Cette affirmation est le résultat d’une étude de plus de 7 500 sites Web réalisée par les chercheurs de la Penn State University.

C. Lee Giles, professeur en sciences et technologies de l’information à Penn State, responsable de l’équipe de recherche qui a mis au point le moteur de recherche BotSeer pour cette étude, a qualifié de « surprenant » le biais pro-Google.

« Nous pensions que les fichiers ‘robots.txt’ traitaient tous les moteurs de recherche de la même manière ou qu’ils désavantageaient peut-être certains robots malveillants », explique-t-il. « Nous avons donc été étonnés de découvrir une forte corrélation entre les robots avantagés et la part de marché des différents moteurs de recherche. »

Les fichiers ‘Robots.txt’ ne sont pas un standard officiel, mais par accord informel, ils permettent de réguler les robots d’indexation (également appelés « spider ») qui analysent le Web en permanence. Les webmasters utilisent les fichiers disponibles dans un répertoire du site Web pour limiter l’accès des robots d’indexation aux informations non-publiques.

Les fichiers ‘Robots.txt’ sont également utilisés pour réduire la charge sur les serveurs qui peut entraîner un déni de service et conduire à la fermeture du site Web. Mais certains webmasters et administrateurs écrivent des fichiers ‘robots.txt’ qui ne bloquent pas les accès de façon homogène.

Selon les chercheurs, ces fichiers offrent un accès à Google, Yahoo et MSN mais limitent l’accès aux autres moteurs de recherche. Si l’étude n’explique pas pourquoi les webmasters ont choisi d’avantager Google, les chercheurs affirment que ce choix a été fait en toute connaissance de cause. Ne pas utiliser de fichier ‘robots.txt’ revient à donner à tous les robots un égal accès à un site Web.

« Les fichiers ‘Robots.txt’ sont écrits par les webmasters et les administrateurs qui spécifient intentionnellement Google comme le moteur de recherche favori », explique le professeur Giles.

Tous les sites ne possèdent pas de fichier ‘robots.txt’, mais leur nombre est en augmentation. Sur les 7 500 sites analysés par les chercheurs, environ quatre sur dix possédaient ce type de fichier, contre moins d’un sur dix en 1996.

Adaptation de l’article Google bots get the red carpet treatment de Vnunet.com en date du 19 novembre 2007.

Recent Posts

PC Copilot+ : une porte d’entrée vers l’ IA locale ?

Equipés de NPU, les PC Copilot+ peuvent déployer des LLM en local. Un argument suffisant…

2 semaines ago

PCIe 5.0 : La révolution des cartes-mères est-elle en marche ?

Que vous soyez un novice dans le domaine informatique, ou avec un profil plus expérimenté,…

3 semaines ago

Cybersécurité : attention aux QR codes dans les PDF

Les attaques de phishing utilisant des QR codes frauduleux intégrés dans des documents PDF joints…

2 mois ago

Windows 11 : une mise à jour majeure apporte de nouvelles fonctionnalités

Microsoft a amorcé le déploiement de Windows 11 24H2. Passage en revue des nouvelles fonctionnalités…

3 mois ago

Microsoft 365 : comment Copilot se déploie dans toutes les applications

L'intégration de Copilot dans la suite bureautique s'accélère. Où trouver l'assistant IA et comment l'utiliser…

3 mois ago

PC Copilot + : Microsoft veut garder Recall

Microsoft annonce une phase expérimentale pour lancer Recall sur les PC Copilot+. Elle doit commencer…

4 mois ago