Categories: Data-stockage

Translatotron : Google cherche à traduire la parole sans passer par le texte

Dans quelle mesure un ordinateur peut-il traduire la parole dans une langue étrangère sans transcrire la voix en texte ?

Les travaux que Google a menés sur ce front ont abouti à un système expérimental baptisé Translatotron. Il s’appuie sur un réseau de neurones artificiels avec mécanisme d’attention.

Supprimer l’étape intermédiaire de transcription permet de gagner en rapidité et de minimiser les risques d’erreurs. Mais aussi de mieux restituer les mots qui n’ont pas besoin d’être traduits (par exemple, les noms propres)… et d’éventuellement préserver les caractéristiques de la voix du locuteur.

Google avait publié, en 2017, un rapport d’étude qui tendait à prouver la supériorité de ces algorithmes « de bout en bout » sur les algorithmes traditionnels fonctionnant « en cascade » (transcription de la parole en texte, traduction dans la langue cible, puis synthèse vocale).

C’est moins évident dans la pratique. Notamment parce que réduire le processus à une seule étape nécessite davantage d’entraînement que de le diviser en plusieurs tâches. La quantité de données vocales disponibles est par ailleurs limitée.

Quand Guillermo devient William

Le réseau neuronal de Translatotron représente, en entrée comme en sortie, la parole sous forme de spectrogramme.
Deux composantes lui sont associées. D’une part, un vocodeur qui convertir les spectrogrammes cibles en ondes temporelles. De l’autre, un encodeur qui permet optionnellement de maintenir les caractéristiques de la voix d’origine.

Google a observé des comportements particuliers susceptibles de résulter de biais. Par exemple avec le prénom Guillermo : alors que Translatotron le conserve sous cette forme en passant de l’espagnol vers l’anglais, un algorithme « traditionnel » le traduit en « William ».
La prononciation des sons n’est en outre pas toujours bien gérée, lorsqu’elle diffère entre deux langues.

Photo d’illustration © Chukcha – Shutterstock.com

Recent Posts

Digital Workplace : comment l’IA Générative s’installe dans l’environnement de travail

L’IA générative excelle dans plusieurs cas d’usage, notamment dans l’analyse, la recherche et la synthèse…

3 semaines ago

PC Copilot+ : avec Arm ou x86 ?

Trop tôt pour envisager d'acquérir un PC Copilot+ ? Les roadmaps d'Intel et d'AMD peuvent…

1 mois ago

Copilot+ : une sélection de PC convertibles

Dévoilés lors du CES 2025, les PC Copilot+ au format convertible restent encore limitée dans…

2 mois ago

Avec Gemini intégré à Google Workspace, les prix s’envolent

Les fonctionnalités de Gemini sont intégrées dans la suite bureautique Google Workspace. Conséquence : les…

2 mois ago

PC Copilot+ : c’est parti pour la transformation du parc

Au CES 2025, les principaux constructeurs ont annoncé l'arrivée des ordinateurs de bureau dotés de…

2 mois ago

PC Copilot+ : une porte d’entrée vers l’ IA locale ?

Equipés de NPU, les PC Copilot+ peuvent déployer des LLM en local. Un argument suffisant…

3 mois ago