Categories: Cloud

WaveNet de Google : la synthèse vocale portée aux nues grâce au machine learning

AlphaGo, le programme mis au point par DeepMind (filiale de Google spécialisée dans l’intelligence artificielle), a montré toute l’étendue de ses capacités face à des champions du jeu de Go.

C’est désormais au tour de WaveNet de faire l’article de la technologie de DeepMind.

A l’instar du programme AlphaGo, WaveNet repose entièrement sur l’intelligence artificielle. Plus précisément, il puise son potentiel dans sa capacité d’apprendre grâce au machine learning (apprentissage automatique).

C’est de cette manière que WaveNet est capable de repousser encore un peu plus les limites de la synthèse vocale.

De l’Amiga à Alexa

En dévoilant les résultats obtenus avec son programme, Google parle d’une amélioration de 50 %, à la fois en anglais et en mandarin, des résultats obtenus par rapport aux technologies habituelles de synthèse vocale.

Il s’agit d’une synthèse vocale réalisée par concaténation de mots. Un procédé actuellement utilisé par les principaux assistants vocaux du marché, tels que Cortana (Microsoft), Siri (Apple), Google Assistant ou encore Alexa (Amazon).

Il y a également la modélisation paramétrique, une technique historique entièrement synthétique utilisée notamment sur les ordinateurs disposant d’une faible quantité de mémoire. On pense à l’Amiga 500, qui disposait d’une telle synthèse vocale aux accents robotiques et artificielle.

Les progrès dans l’informatique et le HPC (High Performance Computing) sont à l’origine d’avancées spectaculaires symbolisées par WaveNet.

L’application est alimentée en fichiers audio au format RAW (Real Audio Wrapper), c’est-à-dire n’ayant subi aucune compression. Il s’agit de sons produits par des voix humaines en anglais et en mandarin. WaveNet est capable de traiter et d’ingurgiter 16 000 échantillons par seconde (voire plus).

Il peut ensuite générer du son échantillon par échantillon. C’est sur la base des statistiques qu’il prédit l’échantillon suivant le plus probable.

De quoi faire de WaveNet un expert en imitation de voix humaine. Mais on comprend aisément que cela nécessite une puissance de calcul substantielle pour parvenir à de tels résultats.

Des sons et des voix

Incompatible avec une arrivée imminente dans nos terminaux mobiles ? Pas forcément, puisque, sur la base du cloud computing, Google pourrait mettre à disposition des serveurs spécialisés pour y déporter les calculs.

Le potentiel est énorme : WaveNet peut apprendre et reproduire n’importe quelle voix humaine, là où il fallait une nouvelle librairie d’échantillons pour changer la voix d’un assistant par exemple.

WaveNet ne se contente pas d’exceller dans l’exercice de la reproduction de voix humaines. Il est aussi capable, de la même manière, de modéliser n’importe quel type de son, comme celui produit par un instrument de musique, tel que le piano.

Pour rappel, DeepMind est entré dans l’escarcelle de Google en janvier 2014. La firme de Mountain View aurait mis, à l’époque, un demi-milliard de dollars pour s’offrir la start-up britannique spécialisée dans les technologies d’intelligence artificielle.

Il faut dire que le sillon de l’IA avait déjà été creusé par Google dès 2012 avec le recrutement de Ray Kurzweil, un chercheur américain qui s’est illustré en créant de nombreuses start-up dans les domaines de la reconnaissance optique de caractères et vocale. Au sein de Google, il chapeaute les travaux dans l’apprentissage automatique et l’interprétation du langage naturel, un complément au TTS (Text-to-Speech), autrement dit la synthèse vocale.

(Crédit photo : @DeepMind/Google)

Recent Posts

Digital Workplace : comment l’IA Générative s’installe dans l’environnement de travail

L’IA générative excelle dans plusieurs cas d’usage, notamment dans l’analyse, la recherche et la synthèse…

2 semaines ago

PC Copilot+ : avec Arm ou x86 ?

Trop tôt pour envisager d'acquérir un PC Copilot+ ? Les roadmaps d'Intel et d'AMD peuvent…

4 semaines ago

Copilot+ : une sélection de PC convertibles

Dévoilés lors du CES 2025, les PC Copilot+ au format convertible restent encore limitée dans…

1 mois ago

Avec Gemini intégré à Google Workspace, les prix s’envolent

Les fonctionnalités de Gemini sont intégrées dans la suite bureautique Google Workspace. Conséquence : les…

1 mois ago

PC Copilot+ : c’est parti pour la transformation du parc

Au CES 2025, les principaux constructeurs ont annoncé l'arrivée des ordinateurs de bureau dotés de…

2 mois ago

PC Copilot+ : une porte d’entrée vers l’ IA locale ?

Equipés de NPU, les PC Copilot+ peuvent déployer des LLM en local. Un argument suffisant…

3 mois ago