Tesseract OCR es un proyecto open source que trata sobre un motor de reconocimiento de texto en imágenes. Está disponible para Mac, Windows y Linux.

Hay buenas noticias para los hispanohablantes, pues Tesseract OCR tiene soporte para el español y la verdad es que me ha dejado maravillado con su precisión de reconocimiento.

En este post vamos a ver cómo instalar Tesseract OCR en Windows 10 para digitalizar imágenes, ya sea escaneos, fotos o capturas; cualquier imagen conteniendo texto será válida.

Resumiendo, vamos a ver:

  • Cómo instalar Tesseract OCR en Windows
  • Descargar el soporte para el idioma español
  • Agregar Tesseract OCR a PATH de Windows
  • Probar instalación de Tesseract

No te preocupes, este es un post inicial que sentará las bases para otros proyectos y demostraciones. Lo primero es instalar, descargar y configurar Tesseract, y lo segundo es usarlo.

Descargar Tesseract OCR

Vamos a la wiki en GitHub y descargamos la versión para nuestra computadora, ya sea de 32 o 64 bits:

1 – Descargar instalador de tesseract ocr según arquitectura

Cuando se descargue lo ejecutamos como administrador y damos todos los permisos necesarios.

Aceptamos licencias y hacemos click en Siguiente; dejamos todo por defecto:

2 – Instalando tesseract ocr

Eso habrá instalado tesseract OCR en Windows. La ruta en donde se instaló por defecto es:

C:\Program Files\Tesseract-OCR

Guarda esa ruta, pues la vamos a ocupar más tarde.

Descargar idioma español

Por defecto, tesseract incluye únicamente el inglés. Para agregar más idiomas vamos al repositorio necesario, pero hay 2 maneras.

  • La primera forma son los modelos rápidos
  • La segunda, son los mejores modelos

Es decir, la primera es rápida pero no tan precisa, y la segunda es un poco más lenta pero precisa. Yo elegí la segunda y va de maravilla.

El modelo que es rápido se encuentra aquí, baja hasta encontrar el idioma que dice spa y descárgalo.

3 – Idioma español rápido

En caso de que quieras el mejor modelo (recomendado), igualmente en español, visita esta página. Baja hasta encontrar spa.traineddata:

3 – Idioma español mejor

Después haz click en Download.

Instalar idioma español

Sin importar si seleccionaste la rápida o la mejor, tendrás un archivo llamado spa.traineddata.

Ese archivo vamos a colocarlo en la ruta de instalación de Tesseract OCR (si no lo modificaste, recuerda que es C:\Program Files\Tesseract-OCR) dentro de la carpeta tessdata.

Personalmente la pondré en:

C:\Program Files\Tesseract-OCR\tessdata

De manera que se ve así:

4 – Colocar traineddata en carpeta de ocr

Agregar Tesseract a PATH

Para invocar el ejecutable tesseract desde cualquier lugar de la consola vamos a agregar la ruta de Tesseract (no la de tessdata, sino una carpeta arriba) a la Path de Windows.

Mira este post en donde se indica cómo se agrega la ruta a la PATH, al final debe lucir así:

5 – Agregar binario de tesseract a PATH de Windows

La ruta que hay que agregar es C:\Program Files\Tesseract-OCR en caso de que no hayas movido nada.

Probar instalación de Tesseract en Windows

Ahora, para probar todo lo configurado arriba, vamos a ejecutar el siguiente comando:

tesseract --list-langs

Con ello vamos a probar si agregamos tesseract a la PATH, y si instalamos el idioma español. La salida debe ser similar a la siguiente imagen:

6 – Listar idiomas instalados con tesseract

Ahí se puede observar que tenemos instalado el idioma spa, además de que el ejecutable tesseract funciona correctamente.

Conclusión

Paciencia, que más adelante traeré la segunda parte y más posts sobre OCR desde algunos lenguajes de programación.

Te invito a suscribirte al blog en la parte de abajo.

¿Encontraste lo que buscabas?

Si es así, suscríbete para que estés enterado de mis nuevos posts sobre programación e informática

Estoy interesado en trabajar contigo de manera remota para llevar tu idea a la realidad, formar parte de tu equipo de desarrolladores, ayudarte con tu tarea, dar asesorías y todo lo relacionado con tecnología y programación. Contáctame para más información
No te vayas sin seguirme en Twitter, Facebook y GitHub
Si tienes dudas déjalas en un comentario, pero asegúrate de seguirme antes como agradecimiento (no te cuesta nada y me ayudas mucho)


parzibyte

He trabajado por más de 4 años en el desarrollo de software con experiencia en Java, PHP, JavaScript, HTML, Node.JS, Python, Android y Go. También he trabajado con bases de datos SQL como MySQL y SQLite, así como con bases de datos NoSQL usando MongoDB. Soy bueno utilizando algunos frameworks y herramientas como Firebase, jQuery, AngularJS, VueJS, CodeIgniter, Laravel, BulmaCSS, Bootstrap y Electron. Otros términos que conozco son: Arduino, GraphQL, API's, REST, AJAX, PouchDB, CouchDB, Experiencia de usuario, buenas prácticas de programación, Webpack, NPM, Administración de servidores y programación de scripts La plataforma en la que tengo más experiencia es la web, pero en mis ratos libres realizo unos pequeños ejercicios en C# y C. Estoy aquí para ayudarte a resolver tus problemas de programación y depuración :-)

1 Comment

Instalar Tesseract OCR + Idioma español en Ubuntu - Parzibyte's blog · mayo 18, 2019 a las 8:00 pm

[…] en mi blog vimos cómo instalar Tesseract OCR en Windows 10 con los modelos para detectar el idioma español en el texto dentro de la […]

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Share via
A %d blogueros les gusta esto: