Mountain View (EE. UU.) - Google ha agregado una aplicación, llamada Tesseract, para el reconocimiento óptico de caracteres (OCR) a su impresionante colección de software gratuito. Es un programa que permite convertir el texto contenido en una imagen, típicamente obtenido por medio de un escáner, en caracteres que pueden ser entendidos por un procesador de textos.
El motor detrás de Tesseract fue creado originalmente por HP , que desde 1995 sin embargo ha dejado de desarrollarse: esto a pesar de que en ese momento era considerado uno de los mejores software OCR del momento. Hace aproximadamente dos años, HP donó el código a la Universidad de Nevada en Las Vegas (UNLV), que ha estado trabajando para corregir errores desde entonces. Desde hace unos meses Google asume el patrocinio de la iniciativa convirtiéndolo en un proyecto de código abierto y ahora afirma que el programa "es lo suficientemente estable como para volver a publicarse como código abierto".
Tesseract, sin embargo, todavía sufre de algunas limitaciones importantes : el primero es el soporte del idioma inglés solamente (sin corrector ortográfico italiano, por así decirlo); el segundo es la incapacidad de preservar el diseño de las páginas (como columnas y tablas); el tercero es la escasa capacidad para reconocer textos impresos en hojas grises o en color (en otras palabras, da lo mejor de sí mismo solo con el texto clásico en blanco y negro). Según la propia admisión de Google, Tesseract es mucho menos preciso que los mejores paquetes de OCR del mercado actual .
También debe tenerse en cuenta que, aunque los desarrolladores de UNLV han parcheado el código aquí y allá, la tecnología detrás de Tesseract se ha mantenido esencialmente igual que hace diez años.
Sin embargo, Google afirma que Tesseract " es mucho más preciso que cualquier OCR de código abierto que existe " “Además, su licencia permite que cualquiera pueda mejorarlo e integrarlo en otras aplicaciones: lo cual no es poca cosa.
La gran G ha prometido que seguirá trabajando con este software, y para ello está contratando expertos en tecnologías relacionadas con ese OCR.
Que Google esté interesado en OCR no es de extrañar : BigG está haciendo un gran uso de esta tecnología para la digitalización de libros (ver Búsqueda de libros de Google), además, como motor de búsqueda, está particularmente interesado en acelerar la transición de todo el conocimiento humano a formatos digitales que puedan ser indexados por sus arañas. .
Tesseract actualmente solo está disponible en forma de código fuente, que se puede descargar desde esta página de SourceForge.net.
Google lanza un OCR de código abierto