Mountain View (Ătats-Unis) - Google a ajoutĂ© une application, appelĂ©e Tesseract, pour la reconnaissance optique de caractĂšres (OCR) Ă son impressionnante collection de logiciels gratuits. C'est un programme qui peut ĂȘtre utilisĂ© pour convertir le texte contenu dans une image, gĂ©nĂ©ralement obtenu au moyen d'un scanner, en caractĂšres qui peuvent ĂȘtre compris par un traitement de texte.
Le moteur derriĂšre Tesseract a Ă©tĂ© crĂ©Ă© Ă l'origine par HP , qui a pourtant cessĂ© de se dĂ©velopper depuis 1995 : ceci malgrĂ© le fait qu'Ă l'Ă©poque il Ă©tait considĂ©rĂ© comme l'un des meilleurs logiciels d'OCR du moment. Il y a environ deux ans, HP a fait don du code Ă l'UniversitĂ© du Nevada Ă Las Vegas (UNLV), qui travaille depuis Ă corriger les bogues. Depuis quelques mois, Google a pris le parrainage de l'initiative en faire un projet open source et maintenant il affirme que le programme "est suffisamment stable pour ĂȘtre republiĂ© en open source".
Tesseract souffre cependant toujours de quelques limitations importantes : le premier est le support de la langue anglaise uniquement (pas de correcteur orthographique italien, pour ainsi dire) ; la seconde est l'incapacitĂ© de conserver la mise en page des pages (comme les colonnes et les tableaux) ; le troisiĂšme est la mauvaise capacitĂ© Ă reconnaĂźtre les textes imprimĂ©s sur des feuilles grises ou en couleur (en d'autres termes, il ne donne le meilleur qu'avec du texte classique noir sur blanc). De l'aveu mĂȘme de Google, Tesseract il est beaucoup moins prĂ©cis que les meilleurs packages OCR sur le marchĂ© aujourd'hui .
Il faut Ă©galement considĂ©rer que, bien que les dĂ©veloppeurs d'UNLV aient corrigĂ© le code ici et lĂ , la technologie derriĂšre Tesseract est restĂ©e essentiellement la mĂȘme qu'il y a dix ans.
Cependant, Google prétend que Tesseract " il est beaucoup plus précis que n'importe quel OCR open source " », De plus, sa licence permet à quiconque de l'améliorer et de l'intégrer dans d'autres applications : ce qui n'est pas une mince affaire.
Le grand G a promis qu'il continuerait à travailler avec ce logiciel, et à cette fin, il embauche des experts en technologies liées à cet OCR.
Que Google s'intéresse à l'OCR n'est pas surprenant : BigG fait grand usage de cette technologie pour la numérisation de livres (voir Google Book Search), de plus, en tant que moteur de recherche, il s'intéresse particuliÚrement à accélérer la transition de toutes les connaissances humaines vers des formats numériques indexables par ses araignées .
Tesseract n'est actuellement disponible que sous forme de code source, qui peut ĂȘtre tĂ©lĂ©chargĂ© Ă partir de cette page SourceForge.net.
Google lance un OCR open source