Exploités par les sites Internet pour le référencement dans les moteurs de recherche, les fichiers robots.txt peuvent révéler bien des secrets.
C’est le principal enseignement à tirer d’une expérimentation menée par Thiébaud Weksteen.
Ce chercheur en sécurité informatique s’est penché sur ces documents texte généralement situés à la racine du serveur Web et spécifiant quelles parties du site doivent être parcourues par les robots. Conçus pour des machines, ils sont tout à fait interprétables par des humains, moyennant quelques outils logiciels.
Thiébaud Weksteen a d’abord récupéré une liste de fichiers robots.txt. A ces fins, il a utilisé un service gratuit listant les résultats d’indexation sur un grand nombre de noms de domaines… et ouvert à tous. En l’occurrence, le projet Common Crawl, porté par l’organisation à but non lucratif du même nom.
Les résultats sont divisés en archives de 1 Go, pesant 4 Go après décompression. Il en existe plus de 33 000 pour l’index de février 2015.
Un script sur mesure a permis de récupérer ces archives, puis de les décompresser et d’extraire les noms d’hôtes tout en triant les extensions grâce à une liste blanche pour éviter les faux positifs.
Les noms d’hôtes récupérés ont ensuite été insérés dans le logiciel open source Burst, qui a permis de télécharger les fichiers robots.txt. Sur les 59 558 parcourus à cet effet, 59 436 ont envoyé une réponse. Dans 35 376 cas, le fichier robots.txt était « conforme », car contenant au moins une instruction standard.
En analysant ces fichiers, Thiébaud Weksteen a découvert de nombreuses fautes de syntaxe… ou tout simplement d’orthographe dans certaines commandes comme Disallow, régulièrement écrit Disalow. Il a surtout noté le recours fréquent à des instructions non standardisées et la présence de nombreux commentaires.
Ce dernier point pose un souci particulier : les commentaires sont susceptibles de fournir des indices sur les technologies utilisées par les serveurs ou encore sur certains dossiers isolés des robots d’indexation.
L’examen des instructions Disallow est tout aussi riche en enseignements. Illustration sur le site de la Knesset, Chambre législative israélienne : le fichier robots.txt contient des références à plus de 10 000 documents qui ne doivent pas être indexés.
Problème : la plupart sont encore trouvables en ligne. En passant par un service de traduction, on s’aperçoit qu’il s’agit de comptes rendus de réunions à teneur parfois très confidentielle.
Autre exemple : ces 9000 documents du gouvernement américain (state.gov) qui ont subitement disparu des moteurs de recherche au printemps 2013… mais que l’on peut retrouver grâce à des services comme Internet Archive.
Crédit photo : Rueangrit Srisuk – Shutterstock.com
Equipés de NPU, les PC Copilot+ peuvent déployer des LLM en local. Un argument suffisant…
Que vous soyez un novice dans le domaine informatique, ou avec un profil plus expérimenté,…
Les attaques de phishing utilisant des QR codes frauduleux intégrés dans des documents PDF joints…
Microsoft a amorcé le déploiement de Windows 11 24H2. Passage en revue des nouvelles fonctionnalités…
L'intégration de Copilot dans la suite bureautique s'accélère. Où trouver l'assistant IA et comment l'utiliser…
Microsoft annonce une phase expérimentale pour lancer Recall sur les PC Copilot+. Elle doit commencer…