Reconnaissance optique : Google sort une version open source du logiciel Tesseract

Google a de nouveau publié une version open source d’un logiciel de reconnaissance optique de caractères (OCR, optical character recognition) initialement développé par HP. Le programme Tesseract a été développé par le constructeur informatique américain dans la période 1985-1995. A la fin de son développement, ce programme s’est illustré lors d’une compétition organisée par l’université de Las Vegas (UNLV) dans le Nevada, en se hissant sur le podium des meilleurs logiciels OCR.

Dans un communiqué, Google a déclaré que ce projet de technologie OCR s’intégrait parfaitement à la stratégie du groupe qui consiste à fournir des informations en ligne, anticipant ainsi les doutes que pourraient avoir certains sur le bien-fondé d’une telle initiative.

« Notre seule vocation est de mettre des informations à la disposition des utilisateurs. Lorsque ces informations sont uniquement disponibles au format papier, l’OCR est l’unique moyen de convertir les pages du document en texte exploitable pour l’indexation », écrit Eric Case dans le blog officiel de Google, Code Blog.

HP a cessé ses travaux de développement de Tesseract en 1995 et a publié le code de l’Information Science Research Institute à l’UNLV il y a quelques années afin de le développer en open source. « C’est avec plaisir que l’UNLV a accueilli notre proposition, mais ils ont demandé notre aide pour corriger quelques bugs qui se sont glissé depuis 1995 », ajoute Eric Case.

« Nous avons corrigé les défauts les plus évidents et avons décidé il y a quelques mois que le programme OCR Tesseract était suffisamment stable pour être republié en open source. »
Google avait initialement prévu de faire profil bas sur ce lancement, mais l’annonce de cette relance est accompagnée d’une invitation adressée aux ingénieurs afin qu’ils collaborent à ce projet.

Le logiciel est actuellement uniquement disponible en anglais. Il n’inclut aucun module d’analyse de disposition des pages, a du mal à gérer les gammes de gris et les documents couleur et ne répond pas aux critères de précision des meilleurs programmes OCR actuellement disponibles dans le commerce. « Mais pour autant que l’on sache, Tesseract est de loin le plus précis des programmes OCR open source actuels, et ce en dépit de ses lacunes », conclut Eric Case.

Traduction d’un article de Vnunet.com en date du 5 septembre 2006

NextAntitrust : Le dossier d'accusation de Bruxelles contre Intel s'alourdit »

Previous « Les premiers services Windows Live sortent de la phase bêta

Published by

La Rédaction

18 années ago

Reconnaissance optique : Google sort une version open source du logiciel Tesseract

Recent Posts

Cybersécurité : attention aux QR codes dans les PDF

Windows 11 : une mise à jour majeure apporte de nouvelles fonctionnalités

Microsoft 365 : comment Copilot se déploie dans toutes les applications

PC Copilot + : Microsoft veut garder Recall

Windows 11 : comment Microsoft va réduire la taille des mises à jour

Windows 11 : comment Bloc-notes va remplacer WordPad

Reconnaissance optique : Google sort une version open source du logiciel Tesseract

Related Post

Recent Posts

Cybersécurité : attention aux QR codes dans les PDF

Windows 11 : une mise à jour majeure apporte de nouvelles fonctionnalités

Microsoft 365 : comment Copilot se déploie dans toutes les applications

PC Copilot + : Microsoft veut garder Recall

Windows 11 : comment Microsoft va réduire la taille des mises à jour

Windows 11 : comment Bloc-notes va remplacer WordPad