Press release

Dataocean AI a pris part à la création de l’ensemble de données open source GigaSpeech 2 : un corpus de reconnaissance vocale automatique à grande échelle et multi-domaine pour les langues à faibles ressources

0
Sponsorisé par Businesswire

Dataocean AI a collaboré avec l’Université Jiao Tong de Shanghai, l’Université chinoise de Hong Kong, l’Université Tsinghua, Pengcheng Lab, AISpeech, Birch AI et Seasalt AI pour mettre au pointe GigaSpeech 2. Le développement et les ensembles de test de GigaSpeech 2 sont étiquetés par une équipe professionnelle de Dataocean AI.

Ce communiqué de presse contient des éléments multimédias. Voir le communiqué complet ici : https://www.businesswire.com/news/home/20240924818099/fr/

(Photo: Business Wire)

(Photo: Business Wire)

Aperçu de GigaSpeech 2

GigaSpeech 2 est un corpus en constante expansion, à grande échelle, multi-domaine et multilingue de reconnaissance vocale conçu pour promouvoir la R&D dans la reconnaissance vocale des langues à faibles ressources. La version brute de GigaSpeech 2 contient 30 000 heures d’audio transcrit automatiquement, couvrant le thaï, l’indonésien et le vietnamien. Après plusieurs cycles de raffinement et d’itération, la version raffinée de GigaSpeech 2 offre 10 000 heures de thaï, 6 000 heures d’indonésien et 6 000 heures de vietnamien. Les ensembles de test étiquetés par Dataocean AI pour le thaï et l’indonésien, se composent chacun de 10 heures, tandis que les ensembles de développement sont de 10 heures pour le thaï et l’indonésien. L’équipe a également des modèles de reconnaissance vocale multilingue open source formés sur les données GigaSpeech 2, obtenant des performances comparables à celles des services commerciaux de reconnaissance vocale.

Construction de l’ensemble de données

Le processus de construction de GigaSpeech 2 a également été open source. Il s’agit d’un processus automatisé permettant de créer des ensembles de données de reconnaissance vocale à grande échelle à partir de grandes quantités d’audio non étiqueté disponibles sur internet. Le processus automatisé implique l’exploration, la transcription, l’alignement et le raffinement des données. Initialement, Whisper est utilisé pour la transcription préliminaire, suivie d’un alignement forcé avec TorchAudio pour produire GigaSpeech 2 brut par filtrage multidimensionnel. L’ensemble de données est ensuite affiné itérativement à l’aide d’une méthode Noisy Student Training (NST) améliorée, renforçant la qualité des pseudo-étiquettes grâce à des itérations répétées, ce qui a finalement permis d’affiner GigaSpeech 2.

GigaSpeech 2 englobe un large éventail de domaines thématiques, y compris l’agriculture, l’art, les affaires, le climat, la culture, l’économie, l’éducation, le divertissement, la santé, l’histoire, la littérature, la musique, la politique, les relations, le shopping, la société, le sport, la technologie et les voyages. En outre, il couvre divers formats de contenu tels que des livres audio, des documentaires, des conférences, des monologues, des films et des séries télévisées, des nouvelles, des interviews et des blogs vidéo.

Détails de l’ensemble de formation

GigaSpeech 2 propose un ensemble de formation complet et diversifié, méticuleusement conçu pour soutenir le développement de modèles de reconnaissance vocale robustes et performants. Les détails de l’ensemble de formation sont les suivants :

– thaïlandais : la version brute comprend 12 901,8 heures de données vocales, tandis que la version raffinée comprend 10 262,0 heures.

– indonésien : les données brutes s’élèvent à 8 112,9 heures, et les données affinées comprennent 5 714,0 heures.

– vietnamiens : l’ensemble de données brutes comprend 7 324,0 heures d’enregistrements vocaux, l’ensemble de données raffiné totalisant 6 039,0 heures.

Informations relatives au développement et à l’ensemble de tests

Ke Li, COO de Dataocean AI, qui est également l’un des auteurs de l’article, a dirigé le projet d’ensembles de tests GigaSpeech 2. Avec près de 20 ans d’expérience de projet, l’équipe a contribué en thaï et en indonésien avec une précision terminologique supérieure à 97 %. Outre ces deux langues d’Asie de l’Est, l’équipe de Dataocean AI peut également couvrir plus de 200 langues et dialectes dans le monde entier. La société propose plus de 1 600 ensembles de données de haute qualité disponibles sur le marché, applicables à de multiples scénarios tels que l’IA générative, la conduite autonome, la maison intelligente, les services à la clientèle, etc., répondant aux besoins changeants de l’industrie de l’IA.

Résultats expérimentaux

Nous avons mené une évaluation comparative des modèles de reconnaissance vocale formés sur l’ensemble de données GigaSpeech 2 par rapport aux modèles leaders de l’industrie, notamment OpenAI Whisper (large-v3, large-v2, base), Meta MMS L1107, Azure Speech CLI 1.37.0 et Google USM Chirp v2. La comparaison a été effectuée en thaï, en indonésien et en vietnamien. L’évaluation du rendement était fondée sur trois ensembles de tests : GigaSpeech 2, Common Voice 17.0 et FLEURS, en utilisant le taux d’erreur de caractère (CER) ou le taux d’erreur de mot (WER) comme indicateurs. Les résultats indiquent :

thaïlandais : notre modèle a démontré des performances exceptionnelles, surpassant tous les concurrents, y compris les interfaces commerciales de Microsoft et Google. Notamment, notre modèle a obtenu ce résultat significatif tout en n’ayant qu’un dixième du nombre de paramètres par rapport à Whisper large-v3.

indonésien et vietnamien : notre système a montré des performances compétitives par rapport aux modèles de base existants en indonésien et en vietnamien.

Liens de ressources

L’ensemble de données GigaSpeech 2 est téléchargeable sur :

https://huggingface.co/datasets/speechcolab/gigaspeech2

Le processus automatisé de construction d’ensembles de données de reconnaissance vocale à grande échelle est disponible sur :

https://github.com/SpeechColab/GigaSpeech2

La version papier préimprimée est disponible sur :

https://arxiv.org/pdf/2406.11546

Site web de Dataocean AI :

https://www.dataoceanai.com

Le texte du communiqué issu d’une traduction ne doit d’aucune manière être considéré comme officiel. La seule version du communiqué qui fasse foi est celle du communiqué dans sa langue d’origine. La traduction devra toujours être confrontée au texte source, qui fera jurisprudence.