L’intelligence artificielle, meilleure que l’humain pour lire sur les lèvres ?
L’expérience WLAS, pour « Watch, Listen, Attend and Spell », le confirme.
Google DeepMind et l’université d’Oxford l’ont menée à partir de quatre émissions de la chaîne britannique BBC.
Ils ont d’abord entraîné leur AI avec des programmes diffusés entre 2010 et 2015.
L’algorithme ainsi préparé a été testé sur des retransmissions datées d’entre mars et septembre 2016.
Résultat : le système WLAS a reconnu du premier coup 46,8 % des mots prononcés par les personnes présentes à l’image.
Une bonne partie des erreurs tient à peu de chose ; généralement, de légères déformations pour certains mots, comme l’absence d’un S à la fin d’un mot, élément difficile à déceler dans de nombreux cas en anglais.
Soumis à la même tâche sur un échantillon de 200 vidéos, un expert affichant environ 10 années d’expérience a reconnu sans erreur moins d’un quart des mots prononcés – même en ayant le droit à plusieurs visionnages.
Les ambiguïtés de la lecture labiale ne pouvant être levées que par une bonne compréhension du contexte, les chercheurs considèrent qu’il s’agit d’une avancée importante. Notamment du fait que leur IA s’appuie sur un jeu de données très étendu : un corpus de 17 500 mots, contre 51 mots pour l’expérience GRID, elle aussi menée par l’université d’Oxford et qui avait également dépassé les performances humaines.
GRID se basait, en outre, sur des phrases reproduisant un modèle bien défini, quand les émissions de la BBC renferment des discours réels prononcés par différents individus avec des structures de phrase très variées.
« Une machine qui peut lire sur les lèvres ouvre la voie à de multiples applications : dictée d’instructions ou de messages à un téléphone dans un environnement bruyant, transcription ou doublage de films sans son, compréhension de discours où plusieurs personnes s’expriment ou, plus généralement, amélioration de la performance de la reconnaissance vocale », écrivent les chercheurs Joo Son Chung, Andrew Senior, Oriol Vinyals et Andrew Zisserman dans leur étude (PDF, 12 pages).
Comme le souligne Silicon.fr, avant de s’attaquer au déchiffrement des phrases prononcées par les personnes filmées, les chercheurs ont également exploité le machine learning pour préparer les données. L’enjeu ? Recaler le son et l’image sur certaines vidéos, une étape indispensable pour assurer la phase d’apprentissage de WLAS.
Les dernières migrations de Windows 10 vers Windows 11 vont accélérer l'adoption des PC IA. Mais des…
L’IA générative excelle dans plusieurs cas d’usage, notamment dans l’analyse, la recherche et la synthèse…
Trop tôt pour envisager d'acquérir un PC Copilot+ ? Les roadmaps d'Intel et d'AMD peuvent…
Dévoilés lors du CES 2025, les PC Copilot+ au format convertible restent encore limitée dans…
Les fonctionnalités de Gemini sont intégrées dans la suite bureautique Google Workspace. Conséquence : les…
Au CES 2025, les principaux constructeurs ont annoncé l'arrivée des ordinateurs de bureau dotés de…