Vision API : Google ajoute une dose de machine learning dans son cloud

Greffé aux ERP pour optimiser les processus internes, associé à l’Internet des objets pour la maintenance prédictive, couplé au big data pour la personnalisation du parcours client… Le machine learning prend de l’importance dans l’offre des principaux fournisseurs cloud.

Microsoft en a fait l’une des thématiques centrales de sa Convergence EMEA 2015, organisée en début de semaine à Barcelone.

Du côté de Google, on travaille, entre autres, sur la mise en oeuvre de ces technologies d’apprentissage automatique dans le domaine de la reconnaissance de formes. L’interface de programmation Vision API en est l’illustration.

Ouverte en alpha privée (inscription sur formulaire), elle doit permettre aux développeurs d’intégrer, dans leurs applications, des « capacités d’interprétation » des images : reconnaissance de texte, identification d’objets, détection des visages et des émotions associées…

Sur le principe même du machine learning, Vision API s’améliore avec le temps, à mesure qu’elle est confrontée à de nouveaux concepts.

On pourra notamment l’exploiter pour qualifier, même approximativement, des images et des vidéos, en leur attribuant des mots-clés, voire des légendes ; autant d’informations indispensables pour un bon référencement dans les moteurs de recherche.

C’est en ce sens que Dropbox avait fait, l’année passée, l’acquisition de la start-up américaine KVBT. L’objectif était en l’occurrence d’améliorer le tri des photos hébergées par les utilisateurs de la plate-forme de stockage en ligne.

Yahoo avait procédé à un rachat similaire l’année précédente, avec LookFlow et sa solution de tri d’images « à la volée », avec des critères comme la récurrence d’un élément de décor ou les conditions météo.

Outre la construction de métadonnées, Vision API peut être utilisée pour modérer du contenu choquant ou mettre en place des actions marketing par analyse des sentiments.

Des perspectives s’ouvrent également dans la robotique, l’assistance aux personnes aveugles ou malvoyantes, la vidéo-protection (détection de comportements à risques ; mais pas l’identification des personnes, non disponible avec Vision API) et l’automobile (anticipation des situations dangereuses).

Google fait régulièrement le point sur ses avancées en matière d’intelligence artificielle appliquée à la reconnaissance d’images, avec en toile de fond ces travaux menés autour des réseaux neuronaux, inspirés du fonctionnement du cerveau humain.

En pratique, il y a encore des progrès à faire.

La machine fait (presque) aussi bien que l’humain dans certaines situations, par exemple pour reconnaître un groupe de jeunes jouant au frisbee, un cliché pris lors d’une épreuve de motocross, un troupeau d’éléphants dans la savane ou des pizzas posées sur une gazinière. Mais elle a encore du mal à déterminer, entre autres, si les deux joueurs de hockey présentés sur une image se disputent bien le palet ou s’ils se trouvent simplement sur le même plan.

Crédit photo : Kurhan – Shutterstock.com