Pour gérer vos consentements :
Categories: RisquesSécurité

Sécurité IT : cette vitrine nommée robots.txt

Exploités par les sites Internet pour le référencement dans les moteurs de recherche, les fichiers robots.txt peuvent révéler bien des secrets.

C’est le principal enseignement à tirer d’une expérimentation menée par Thiébaud Weksteen.

Ce chercheur en sécurité informatique s’est penché sur ces documents texte généralement situés à la racine du serveur Web et spécifiant quelles parties du site doivent être parcourues par les robots. Conçus pour des machines, ils sont tout à fait interprétables par des humains, moyennant quelques outils logiciels.

Thiébaud Weksteen a d’abord récupéré une liste de fichiers robots.txt. A ces fins, il a utilisé un service gratuit listant les résultats d’indexation sur un grand nombre de noms de domaines… et ouvert à tous. En l’occurrence, le projet Common Crawl, porté par l’organisation à but non lucratif du même nom.

Les résultats sont divisés en archives de 1 Go, pesant 4 Go après décompression. Il en existe plus de 33 000 pour l’index de février 2015.

Un script sur mesure a permis de récupérer ces archives, puis de les décompresser et d’extraire les noms d’hôtes tout en triant les extensions grâce à une liste blanche pour éviter les faux positifs.

Les noms d’hôtes récupérés ont ensuite été insérés dans le logiciel open source Burst, qui a permis de télécharger les fichiers robots.txt. Sur les 59 558 parcourus à cet effet, 59 436 ont envoyé une réponse. Dans 35 376 cas, le fichier robots.txt était « conforme », car contenant au moins une instruction standard.

En analysant ces fichiers, Thiébaud Weksteen a découvert de nombreuses fautes de syntaxe… ou tout simplement d’orthographe dans certaines commandes comme Disallow, régulièrement écrit Disalow. Il a surtout noté le recours fréquent à des instructions non standardisées et la présence de nombreux commentaires.

Ce dernier point pose un souci particulier : les commentaires sont susceptibles de fournir des indices sur les technologies utilisées par les serveurs ou encore sur certains dossiers isolés des robots d’indexation.

L’examen des instructions Disallow est tout aussi riche en enseignements. Illustration sur le site de la Knesset, Chambre législative israélienne : le fichier robots.txt contient des références à plus de 10 000 documents qui ne doivent pas être indexés.

Problème : la plupart sont encore trouvables en ligne. En passant par un service de traduction, on s’aperçoit qu’il s’agit de comptes rendus de réunions à teneur parfois très confidentielle.

Autre exemple : ces 9000 documents du gouvernement américain (state.gov) qui ont subitement disparu des moteurs de recherche au printemps 2013… mais que l’on peut retrouver grâce à des services comme Internet Archive.

Crédit photo : Rueangrit Srisuk – Shutterstock.com

Recent Posts

Cybersécurité : attention aux QR codes dans les PDF

Les attaques de phishing utilisant des QR codes frauduleux intégrés dans des documents PDF joints…

2 semaines ago

Windows 11 : une mise à jour majeure apporte de nouvelles fonctionnalités

Microsoft a amorcé le déploiement de Windows 11 24H2. Passage en revue des nouvelles fonctionnalités…

2 mois ago

Microsoft 365 : comment Copilot se déploie dans toutes les applications

L'intégration de Copilot dans la suite bureautique s'accélère. Où trouver l'assistant IA et comment l'utiliser…

2 mois ago

PC Copilot + : Microsoft veut garder Recall

Microsoft annonce une phase expérimentale pour lancer Recall sur les PC Copilot+. Elle doit commencer…

3 mois ago

Windows 11 : comment Microsoft va réduire la taille des mises à jour

Comment réduire la taille des mises à jour de Windows 11 ? Microsoft annonce la…

4 mois ago

Windows 11 : comment Bloc-notes va remplacer WordPad

Déjà doté de la sauvegarde automatique, d'un compteur de caractères et de Copilot, Bloc-notes embarque…

4 mois ago