Pour gérer vos consentements :
Categories: Cloud

Google propose son index « N-gram » sur DVD

Google a annoncé qu’il allait mettre son index « N-gram » à disposition de la communauté scientifique. Six DVD seront nécessaires pour stocker le billion (million de million) de mots tirés de son analyse textuelle des contenus trouvés sur le web. « N-gram » (ou n-gramme) est un modèle de prédiction, qui trouverait son origine à travers les travaux sur la Théorie de l’information de Claude Shannon.

L’équipe de traduction automatique de Google (Google Machine Translation Team) exploite ce modèle dans le cadre de ses recherches et particulièrement dans la traduction automatique, l’extraction d’informations, la correction orthographique ou encore la reconnaissance vocale.

L’index de Google est composé de 1 011 582 453 213 mots courants et complété par plus d’un milliard (1 146 580 664) de séquences de 5 mots apparues plus de 40 fois et de 13 millions (13 653 070) de mots uniques (après nettoyage des termes trouvés moins de 200 fois). Bref, l’index de Google est une mine d’or pour la recherche linguistique.

« Nous pensons que l’ensemble des chercheurs doit avoir accès à une telle masse d’information », précise la Google Machine Translation Team sur son blog, » cela fera avancer la recherche […]. » Google, qui fournira sa base de donnée à qui la demandera, estime notamment que cela permettra aux équipes de recherche de travailler sur un pied d’égalité, quelles que soient leurs ressources informatiques.

Google n’a pas précisé la date de lancement pour la distribution de son indexe, ni les conditions commerciales des son accès. Seule précision : son  » N-Gram » sera annoncé à partir du site de l’Institut des données linguistiques (LDC).

Recent Posts

PC Copilot+ : une porte d’entrée vers l’ IA locale ?

Equipés de NPU, les PC Copilot+ peuvent déployer des LLM en local. Un argument suffisant…

4 semaines ago

PCIe 5.0 : La révolution des cartes-mères est-elle en marche ?

Que vous soyez un novice dans le domaine informatique, ou avec un profil plus expérimenté,…

1 mois ago

Cybersécurité : attention aux QR codes dans les PDF

Les attaques de phishing utilisant des QR codes frauduleux intégrés dans des documents PDF joints…

2 mois ago

Windows 11 : une mise à jour majeure apporte de nouvelles fonctionnalités

Microsoft a amorcé le déploiement de Windows 11 24H2. Passage en revue des nouvelles fonctionnalités…

3 mois ago

Microsoft 365 : comment Copilot se déploie dans toutes les applications

L'intégration de Copilot dans la suite bureautique s'accélère. Où trouver l'assistant IA et comment l'utiliser…

4 mois ago

PC Copilot + : Microsoft veut garder Recall

Microsoft annonce une phase expérimentale pour lancer Recall sur les PC Copilot+. Elle doit commencer…

4 mois ago