Google a annoncé qu’il allait mettre son index « N-gram » à disposition de la communauté scientifique. Six DVD seront nécessaires pour stocker le billion (million de million) de mots tirés de son analyse textuelle des contenus trouvés sur le web. « N-gram » (ou n-gramme) est un modèle de prédiction, qui trouverait son origine à travers les travaux sur la Théorie de l’information de Claude Shannon.
L’équipe de traduction automatique de Google (Google Machine Translation Team) exploite ce modèle dans le cadre de ses recherches et particulièrement dans la traduction automatique, l’extraction d’informations, la correction orthographique ou encore la reconnaissance vocale.
L’index de Google est composé de 1 011 582 453 213 mots courants et complété par plus d’un milliard (1 146 580 664) de séquences de 5 mots apparues plus de 40 fois et de 13 millions (13 653 070) de mots uniques (après nettoyage des termes trouvés moins de 200 fois). Bref, l’index de Google est une mine d’or pour la recherche linguistique.
« Nous pensons que l’ensemble des chercheurs doit avoir accès à une telle masse d’information », précise la Google Machine Translation Team sur son blog, » cela fera avancer la recherche […]. » Google, qui fournira sa base de donnée à qui la demandera, estime notamment que cela permettra aux équipes de recherche de travailler sur un pied d’égalité, quelles que soient leurs ressources informatiques.
Google n’a pas précisé la date de lancement pour la distribution de son indexe, ni les conditions commerciales des son accès. Seule précision : son » N-Gram » sera annoncé à partir du site de l’Institut des données linguistiques (LDC).
Equipés de NPU, les PC Copilot+ peuvent déployer des LLM en local. Un argument suffisant…
Que vous soyez un novice dans le domaine informatique, ou avec un profil plus expérimenté,…
Les attaques de phishing utilisant des QR codes frauduleux intégrés dans des documents PDF joints…
Microsoft a amorcé le déploiement de Windows 11 24H2. Passage en revue des nouvelles fonctionnalités…
L'intégration de Copilot dans la suite bureautique s'accélère. Où trouver l'assistant IA et comment l'utiliser…
Microsoft annonce une phase expérimentale pour lancer Recall sur les PC Copilot+. Elle doit commencer…