Aide à la numérisation d’ouvrages : Google met la main sur ReCaptcha
Pour améliorer la numérisation de livres anciens via Google Books, Google a racheté la start-up ReCaptcha, qui développe des services de sécurisation IT en utilisant la technologie d’identification Captcha.
Google poursuit sa politique de croissance externe : après le rachat cet été de On2 Technologies, fournisseur américain de technologies vidéo, la firme de Mountain View vient de mettre le grappin sur la firme ReCaptcha, qui développe des technologies de sécurisation contre les spams et d’aide à la numérisation d’ouvrages. Le montant de la transaction n’a pas été dévoilé.
Basé à Pittsburgh, aux Etats-Unis, ReCaptcha n’emploie que six personnes et se définit comme « un service anti-bot garuit qui aide à la numérisation de livres ». Cette jeune pousse américaine fournit à plus de 100 000 sites Web une protection de type Captcha contre les spams et la fraude en ligne.
Connue de nombreux internautes, la technologie Captcha (Completely Automated Public Turing test to Tell Computers and Humans Apart) affiche sur l’écran de l’ordinateur une série de lettres et chiffres déformés, afin de vérifier que la personne derrière l’ordinateur est bien un humain, et non un robot pourvoyeur de spams. Cette technique est notamment employée pour la création d’une adresse de messagerie électronique ou un changement de mot de passe.
Mais la raison de l’acquisition de ReCaptcha par Google n’est pas seulement liée à la volonté de mieux sécuriser les services en ligne du géant de l’Internet. Google devrait aussi utiliser les compétences de la start-up pour son service de numérisation d’ouvrages Google Books, actuellement sous le feu des projecteurs, aux Etats-Unis comme en Europe.
La firme de Mountain View compte en effet utiliser une autre technologie mise au point par ReCaptcha : la reconnaissance optique des caractères (OCR – Optical Character Recognition). Les mots Captcha utilisés par ReCaptcha sont issus de la numérisation de journaux ou d’ouvrage anciens. Si les ordinateurs ne peuvent pas reconnaître ce type de texte, c’est parce que, précise Google sur son blog, l’encre et le papier alors utilisés se sont dégradés avec le temps. Les lecteurs optiques actuels sont alors incapables de reconnaître ces caractères anciens.
Mais lorsque les internautes tapent à leur tour les lettres déformées proposées par le Captcha de ReCaptcha à plus de 100 000 sites, ils aident l’ordinateur à comprendre, en tapant les caractères identifiées sur leur machine, les textes mal imprimés des ouvrage numérisés par Google Books.