Google propose son index « N-gram » sur DVD

Cloud

Google va mettre à disposition des chercheurs en linguistique plus d’un
million de million de mots récoltés sur le web.

Google a annoncé qu’il allait mettre son index « N-gram » à disposition de la communauté scientifique. Six DVD seront nécessaires pour stocker le billion (million de million) de mots tirés de son analyse textuelle des contenus trouvés sur le web. « N-gram » (ou n-gramme) est un modèle de prédiction, qui trouverait son origine à travers les travaux sur la Théorie de l’information de Claude Shannon.

L’équipe de traduction automatique de Google (Google Machine Translation Team) exploite ce modèle dans le cadre de ses recherches et particulièrement dans la traduction automatique, l’extraction d’informations, la correction orthographique ou encore la reconnaissance vocale.

L’index de Google est composé de 1 011 582 453 213 mots courants et complété par plus d’un milliard (1 146 580 664) de séquences de 5 mots apparues plus de 40 fois et de 13 millions (13 653 070) de mots uniques (après nettoyage des termes trouvés moins de 200 fois). Bref, l’index de Google est une mine d’or pour la recherche linguistique.

« Nous pensons que l’ensemble des chercheurs doit avoir accès à une telle masse d’information », précise la Google Machine Translation Team sur son blog,  » cela fera avancer la recherche […]. » Google, qui fournira sa base de donnée à qui la demandera, estime notamment que cela permettra aux équipes de recherche de travailler sur un pied d’égalité, quelles que soient leurs ressources informatiques.

Google n’a pas précisé la date de lancement pour la distribution de son indexe, ni les conditions commerciales des son accès. Seule précision : son  » N-Gram » sera annoncé à partir du site de l’Institut des données linguistiques (LDC).