Pour gérer vos consentements :
Categories: Cloud

Google propose son index « N-gram » sur DVD

Google a annoncé qu’il allait mettre son index « N-gram » à disposition de la communauté scientifique. Six DVD seront nécessaires pour stocker le billion (million de million) de mots tirés de son analyse textuelle des contenus trouvés sur le web. « N-gram » (ou n-gramme) est un modèle de prédiction, qui trouverait son origine à travers les travaux sur la Théorie de l’information de Claude Shannon.

L’équipe de traduction automatique de Google (Google Machine Translation Team) exploite ce modèle dans le cadre de ses recherches et particulièrement dans la traduction automatique, l’extraction d’informations, la correction orthographique ou encore la reconnaissance vocale.

L’index de Google est composé de 1 011 582 453 213 mots courants et complété par plus d’un milliard (1 146 580 664) de séquences de 5 mots apparues plus de 40 fois et de 13 millions (13 653 070) de mots uniques (après nettoyage des termes trouvés moins de 200 fois). Bref, l’index de Google est une mine d’or pour la recherche linguistique.

« Nous pensons que l’ensemble des chercheurs doit avoir accès à une telle masse d’information », précise la Google Machine Translation Team sur son blog, » cela fera avancer la recherche […]. » Google, qui fournira sa base de donnée à qui la demandera, estime notamment que cela permettra aux équipes de recherche de travailler sur un pied d’égalité, quelles que soient leurs ressources informatiques.

Google n’a pas précisé la date de lancement pour la distribution de son indexe, ni les conditions commerciales des son accès. Seule précision : son  » N-Gram » sera annoncé à partir du site de l’Institut des données linguistiques (LDC).

Recent Posts

Cybersécurité : attention aux QR codes dans les PDF

Les attaques de phishing utilisant des QR codes frauduleux intégrés dans des documents PDF joints…

3 semaines ago

Windows 11 : une mise à jour majeure apporte de nouvelles fonctionnalités

Microsoft a amorcé le déploiement de Windows 11 24H2. Passage en revue des nouvelles fonctionnalités…

2 mois ago

Microsoft 365 : comment Copilot se déploie dans toutes les applications

L'intégration de Copilot dans la suite bureautique s'accélère. Où trouver l'assistant IA et comment l'utiliser…

2 mois ago

PC Copilot + : Microsoft veut garder Recall

Microsoft annonce une phase expérimentale pour lancer Recall sur les PC Copilot+. Elle doit commencer…

3 mois ago

Windows 11 : comment Microsoft va réduire la taille des mises à jour

Comment réduire la taille des mises à jour de Windows 11 ? Microsoft annonce la…

4 mois ago

Windows 11 : comment Bloc-notes va remplacer WordPad

Déjà doté de la sauvegarde automatique, d'un compteur de caractères et de Copilot, Bloc-notes embarque…

5 mois ago