Pour gérer vos consentements :
Categories: Data-stockage

Lire sur les lèvres : il y a une intelligence artificielle pour ça

L’intelligence artificielle, meilleure que l’humain pour lire sur les lèvres ?

L’expérience WLAS, pour « Watch, Listen, Attend and Spell », le confirme.

Google DeepMind et l’université d’Oxford l’ont menée à partir de quatre émissions de la chaîne britannique BBC.

Ils ont d’abord entraîné leur AI avec des programmes diffusés entre 2010 et 2015.

L’algorithme ainsi préparé a été testé sur des retransmissions datées d’entre mars et septembre 2016.

Résultat : le système WLAS a reconnu du premier coup 46,8 % des mots prononcés par les personnes présentes à l’image.

Une bonne partie des erreurs tient à peu de chose ; généralement, de légères déformations pour certains mots, comme l’absence d’un S à la fin d’un mot, élément difficile à déceler dans de nombreux cas en anglais.

Soumis à la même tâche sur un échantillon de 200 vidéos, un expert affichant environ 10 années d’expérience a reconnu sans erreur moins d’un quart des mots prononcés – même en ayant le droit à plusieurs visionnages.

Les ambiguïtés de la lecture labiale ne pouvant être levées que par une bonne compréhension du contexte, les chercheurs considèrent qu’il s’agit d’une avancée importante. Notamment du fait que leur IA s’appuie sur un jeu de données très étendu : un corpus de 17 500 mots, contre 51 mots pour l’expérience GRID, elle aussi menée par l’université d’Oxford et qui avait également dépassé les performances humaines.

GRID se basait, en outre, sur des phrases reproduisant un modèle bien défini, quand les émissions de la BBC renferment des discours réels prononcés par différents individus avec des structures de phrase très variées.

« Une machine qui peut lire sur les lèvres ouvre la voie à de multiples applications : dictée d’instructions ou de messages à un téléphone dans un environnement bruyant, transcription ou doublage de films sans son, compréhension de discours où plusieurs personnes s’expriment ou, plus généralement, amélioration de la performance de la reconnaissance vocale », écrivent les chercheurs Joo Son Chung, Andrew Senior, Oriol Vinyals et Andrew Zisserman dans leur étude (PDF, 12 pages).

Comme le souligne Silicon.fr, avant de s’attaquer au déchiffrement des phrases prononcées par les personnes filmées, les chercheurs ont également exploité le machine learning pour préparer les données. L’enjeu ? Recaler le son et l’image sur certaines vidéos, une étape indispensable pour assurer la phase d’apprentissage de WLAS.

Recent Posts

PC Copilot+ : une porte d’entrée vers l’ IA locale ?

Equipés de NPU, les PC Copilot+ peuvent déployer des LLM en local. Un argument suffisant…

2 semaines ago

PCIe 5.0 : La révolution des cartes-mères est-elle en marche ?

Que vous soyez un novice dans le domaine informatique, ou avec un profil plus expérimenté,…

3 semaines ago

Cybersécurité : attention aux QR codes dans les PDF

Les attaques de phishing utilisant des QR codes frauduleux intégrés dans des documents PDF joints…

2 mois ago

Windows 11 : une mise à jour majeure apporte de nouvelles fonctionnalités

Microsoft a amorcé le déploiement de Windows 11 24H2. Passage en revue des nouvelles fonctionnalités…

3 mois ago

Microsoft 365 : comment Copilot se déploie dans toutes les applications

L'intégration de Copilot dans la suite bureautique s'accélère. Où trouver l'assistant IA et comment l'utiliser…

3 mois ago

PC Copilot + : Microsoft veut garder Recall

Microsoft annonce une phase expérimentale pour lancer Recall sur les PC Copilot+. Elle doit commencer…

4 mois ago