Intelligence artificielle : PlaNet de Google peut géolocaliser les photos

Google exploite fréquemment l’apprentissage automatique (machine learning) pour alimenter des systèmes basés sur des réseaux de neurones.

C’est dans le domaine de la reconnaissance d’images que la firme de Mountain View s’est illustrée avec un réseau de neurones convolutionnel (type de réseau fréquemment utilisé pour la reconnaissance d’images).

PlaNet – c’est le nom de la machine basée sur un tel réseau – est capable de trouver l’endroit où une photo a été prise simplement sur la base du cliché lui-même et donc sans aucune metadata de type données de géolocalisation.

Il est évidemment aisé d’y parvenir dans certains cas où par exemple un monument célèbre est présent sur le cliché. Mais, les choses se corsent rapidement « lorsque l’image manque d’indices spécifiques pour la localisation ou est prise à l’intérieur ou encore montre un animal de compagnie ou de la nourriture ou un autre détail », peut-on lire sur la revue scientifique du MIT.

Les humains ne manquent pourtant pas de ressources pour détecter des indices leur permettant de géolocaliser de telles photos. PlaNet y parvient également et arrive même à surclasser l’être humain.

Dans cette optique, le réseau neuronal utilise toutes les informations présentes : des signes relatifs à la langue, le type de végétation, les styles architecturaux des bâtiments, la direction du trafic sur la route…

Tobias Weyland, spécialiste de la vision assistée par ordinateur au sein de Google, et son équipe ont entrainé une machine basée sur l’apprentissage automatique profond pour qu’elle apprenne ainsi à géolocaliser n’importe quelle photo. Ils ont présenté leurs travaux dans un article publié par la librairie de l’université de Cornell.

Ils ont tout d’abord divisé le monde en 26 000 carrés de tailles différentes (suivant la densité de photos prises) formant une grille. Le océans et les régions polaires ont été volontairement omises de ce découpage. Plus photographiées, les villes bénéficient d’un carré plus fourni et donc d’une plus fine granularité.

L’équipe a ensuite créé une base de données regroupant des images issues du Web accompagnées de leurs données Exif de géolocalisation afin d’élaborer leur structure en grille. La base regroupe quelque 126 millions d’images.

91 millions d’entre elles ont servi à entrainer le réseau de neurones. Les 34 autres millions ont permis de valider le modèle développé.

Des tests ont ensuite été menés avec 2,3 millions de clichés géotagués issus de Flickr.

« PlaNet est capable de localiser 3,6 % des images avec une précision d’une rue et 10,1 % avec une précision au niveau de la ville, » a déclaré Tobias Weyand. Le réseau peut déterminer le pays d’origine dans 28,4 % des cas et le continent dans 48 %.

Un jeu en ligne baptisé « geoguessr » permet même à quiconque de se mesurer à PlaNet. Il présente au joueur une vue aléatoire tirée de Google Street View, lui demandant de la géolocaliser.

Dix voyageurs chevronnés se sont déjà mesurés à PlaNet. « Au total, PlaNet a gagné 28 des 50 rounds avec une erreur de géolocalisation médiane de 1131,7 km, tandis que celle de l’humain était de 2320,75 km, » précise Tobias Weyand.

Concernant les images prises en intérieur ou d’objets, PlaNet s’en sort également avec les honneurs. Pour ce faire, il a toutefois besoin d’accéder à un album de photos prises au même endroit.

Mais, le plus incroyable est probablement que PlaNet n’exploite que 377 Mo de mémoire vive. De quoi l’intégrer aisément à un smartphone par exemple…

(Crédit photo : Andrii Vodolazhskyi, Shuttershock.com)