L’intelligence artificielle, meilleure que l’humain pour lire sur les lèvres ?
L’expérience WLAS, pour « Watch, Listen, Attend and Spell », le confirme.
Google DeepMind et l’université d’Oxford l’ont menée à partir de quatre émissions de la chaîne britannique BBC.
Ils ont d’abord entraîné leur AI avec des programmes diffusés entre 2010 et 2015.
L’algorithme ainsi préparé a été testé sur des retransmissions datées d’entre mars et septembre 2016.
Résultat : le système WLAS a reconnu du premier coup 46,8 % des mots prononcés par les personnes présentes à l’image.
Une bonne partie des erreurs tient à peu de chose ; généralement, de légères déformations pour certains mots, comme l’absence d’un S à la fin d’un mot, élément difficile à déceler dans de nombreux cas en anglais.
Soumis à la même tâche sur un échantillon de 200 vidéos, un expert affichant environ 10 années d’expérience a reconnu sans erreur moins d’un quart des mots prononcés – même en ayant le droit à plusieurs visionnages.
Les ambiguïtés de la lecture labiale ne pouvant être levées que par une bonne compréhension du contexte, les chercheurs considèrent qu’il s’agit d’une avancée importante. Notamment du fait que leur IA s’appuie sur un jeu de données très étendu : un corpus de 17 500 mots, contre 51 mots pour l’expérience GRID, elle aussi menée par l’université d’Oxford et qui avait également dépassé les performances humaines.
GRID se basait, en outre, sur des phrases reproduisant un modèle bien défini, quand les émissions de la BBC renferment des discours réels prononcés par différents individus avec des structures de phrase très variées.
« Une machine qui peut lire sur les lèvres ouvre la voie à de multiples applications : dictée d’instructions ou de messages à un téléphone dans un environnement bruyant, transcription ou doublage de films sans son, compréhension de discours où plusieurs personnes s’expriment ou, plus généralement, amélioration de la performance de la reconnaissance vocale », écrivent les chercheurs Joo Son Chung, Andrew Senior, Oriol Vinyals et Andrew Zisserman dans leur étude (PDF, 12 pages).
Comme le souligne Silicon.fr, avant de s’attaquer au déchiffrement des phrases prononcées par les personnes filmées, les chercheurs ont également exploité le machine learning pour préparer les données. L’enjeu ? Recaler le son et l’image sur certaines vidéos, une étape indispensable pour assurer la phase d’apprentissage de WLAS.
Les attaques de phishing utilisant des QR codes frauduleux intégrés dans des documents PDF joints…
Microsoft a amorcé le déploiement de Windows 11 24H2. Passage en revue des nouvelles fonctionnalités…
L'intégration de Copilot dans la suite bureautique s'accélère. Où trouver l'assistant IA et comment l'utiliser…
Microsoft annonce une phase expérimentale pour lancer Recall sur les PC Copilot+. Elle doit commencer…
Comment réduire la taille des mises à jour de Windows 11 ? Microsoft annonce la…
Déjà doté de la sauvegarde automatique, d'un compteur de caractères et de Copilot, Bloc-notes embarque…