Dans quelle mesure un ordinateur peut-il traduire la parole dans une langue étrangère sans transcrire la voix en texte ?
Les travaux que Google a menés sur ce front ont abouti à un système expérimental baptisé Translatotron. Il s’appuie sur un réseau de neurones artificiels avec mécanisme d’attention.
Supprimer l’étape intermédiaire de transcription permet de gagner en rapidité et de minimiser les risques d’erreurs. Mais aussi de mieux restituer les mots qui n’ont pas besoin d’être traduits (par exemple, les noms propres)… et d’éventuellement préserver les caractéristiques de la voix du locuteur.
Google avait publié, en 2017, un rapport d’étude qui tendait à prouver la supériorité de ces algorithmes « de bout en bout » sur les algorithmes traditionnels fonctionnant « en cascade » (transcription de la parole en texte, traduction dans la langue cible, puis synthèse vocale).
C’est moins évident dans la pratique. Notamment parce que réduire le processus à une seule étape nécessite davantage d’entraînement que de le diviser en plusieurs tâches. La quantité de données vocales disponibles est par ailleurs limitée.
Le réseau neuronal de Translatotron représente, en entrée comme en sortie, la parole sous forme de spectrogramme.
Deux composantes lui sont associées. D’une part, un vocodeur qui convertir les spectrogrammes cibles en ondes temporelles. De l’autre, un encodeur qui permet optionnellement de maintenir les caractéristiques de la voix d’origine.
Google a observé des comportements particuliers susceptibles de résulter de biais. Par exemple avec le prénom Guillermo : alors que Translatotron le conserve sous cette forme en passant de l’espagnol vers l’anglais, un algorithme « traditionnel » le traduit en « William ».
La prononciation des sons n’est en outre pas toujours bien gérée, lorsqu’elle diffère entre deux langues.
Photo d’illustration © Chukcha – Shutterstock.com
L’IA générative excelle dans plusieurs cas d’usage, notamment dans l’analyse, la recherche et la synthèse…
Trop tôt pour envisager d'acquérir un PC Copilot+ ? Les roadmaps d'Intel et d'AMD peuvent…
Dévoilés lors du CES 2025, les PC Copilot+ au format convertible restent encore limitée dans…
Les fonctionnalités de Gemini sont intégrées dans la suite bureautique Google Workspace. Conséquence : les…
Au CES 2025, les principaux constructeurs ont annoncé l'arrivée des ordinateurs de bureau dotés de…
Equipés de NPU, les PC Copilot+ peuvent déployer des LLM en local. Un argument suffisant…