Instalar Tesseract OCR en Windows 10 para el reconocimiento de texto en imágenes

Tesseract OCR es un proyecto open source que trata sobre un motor de reconocimiento de texto en imágenes. Está disponible para Mac, Windows y Linux.

Hay buenas noticias para los hispanohablantes, pues Tesseract OCR tiene soporte para el español y la verdad es que me ha dejado maravillado con su precisión de reconocimiento.

En este post vamos a ver cómo instalar Tesseract OCR en Windows 10 para digitalizar imágenes, ya sea escaneos, fotos o capturas; cualquier imagen conteniendo texto será válida.

Resumiendo, vamos a ver:

Cómo instalar Tesseract OCR en Windows
Descargar el soporte para el idioma español
Agregar Tesseract OCR a PATH de Windows
Probar instalación de Tesseract

No te preocupes, este es un post inicial que sentará las bases para otros proyectos y demostraciones. Lo primero es instalar, descargar y configurar Tesseract, y lo segundo es usarlo.

Nota: si ya has instalado Tesseract mira cómo se usa aquí.

Descargar Tesseract OCR

Vamos a la wiki en GitHub y descargamos la versión para nuestra computadora, ya sea de 32 o 64 bits:

1 – Descargar instalador de tesseract ocr según arquitectura

Cuando se descargue lo ejecutamos como administrador y damos todos los permisos necesarios.

Aceptamos licencias y hacemos click en Siguiente; dejamos todo por defecto:

Eso habrá instalado tesseract OCR en Windows. La ruta en donde se instaló por defecto es:

C:\Program Files\Tesseract-OCR

Guarda esa ruta, pues la vamos a ocupar más tarde.

Descargar idioma español

Por defecto, tesseract incluye únicamente el inglés. Para agregar más idiomas vamos al repositorio necesario, pero hay 2 maneras.

La primera forma son los modelos rápidos
La segunda, son los mejores modelos

Es decir, la primera es rápida pero no tan precisa, y la segunda es un poco más lenta pero precisa. Yo elegí la segunda y va de maravilla.

El modelo que es rápido se encuentra aquí, baja hasta encontrar el idioma que dice spa y descárgalo.

En caso de que quieras el mejor modelo (recomendado), igualmente en español, visita esta página. Baja hasta encontrar spa.traineddata:

Después haz click en Download.

Instalar idioma español

Sin importar si seleccionaste la rápida o la mejor, tendrás un archivo llamado spa.traineddata.

Ese archivo vamos a colocarlo en la ruta de instalación de Tesseract OCR (si no lo modificaste, recuerda que es C:\Program Files\Tesseract-OCR) dentro de la carpeta tessdata.

Personalmente la pondré en:

C:\Program Files\Tesseract-OCR\tessdata

De manera que se ve así:

4 – Colocar traineddata en carpeta de ocr

Agregar Tesseract a PATH

Para invocar el ejecutable tesseract desde cualquier lugar de la consola vamos a agregar la ruta de Tesseract (no la de tessdata, sino una carpeta arriba) a la Path de Windows.

Mira este post en donde se indica cómo se agrega la ruta a la PATH, al final debe lucir así:

5 – Agregar binario de tesseract a PATH de Windows

La ruta que hay que agregar es C:\Program Files\Tesseract-OCR en caso de que no hayas movido nada.

Probar instalación de Tesseract en Windows

Ahora, para probar todo lo configurado arriba, vamos a ejecutar el siguiente comando:

tesseract --list-langs

Con ello vamos a probar si agregamos tesseract a la PATH, y si instalamos el idioma español. La salida debe ser similar a la siguiente imagen:

6 – Listar idiomas instalados con tesseract

Ahí se puede observar que tenemos instalado el idioma spa, además de que el ejecutable tesseract funciona correctamente.

Conclusión

Paciencia, que más adelante traeré la segunda parte y más posts sobre OCR desde algunos lenguajes de programación.

Nota: ya está el post de cómo convertir imagen a texto en Windows usando OCR.

Te invito a suscribirte al blog en la parte de abajo.

Estoy aquí para ayudarte 🤝💻

Estoy aquí para ayudarte en todo lo que necesites. Si requieres alguna modificación en lo presentado en este post, deseas asistencia con tu tarea, proyecto o precisas desarrollar un software a medida, no dudes en contactarme. Estoy comprometido a brindarte el apoyo necesario para que logres tus objetivos. Mi correo es parzibyte(arroba)gmail.com, estoy como@parzibyte en Telegram o en mi página de contacto

No te pierdas ninguno de mis posts 🚀🔔

Suscríbete a mi canal de Telegram para recibir una notificación cuando escriba un nuevo tutorial de programación.

parzibyte

Programador freelancer listo para trabajar contigo. Aplicaciones web, móviles y de escritorio. PHP, Java, Go, Python, JavaScript, Kotlin y más :) https://parzibyte.me/blog/software-creado-por-parzibyte/

Siguiente Java y swing: mostrar y refrescar reloj con hora actual »

Anterior « Aprende a loguear con Android usando Log y toString

Ver comentarios

Juan Luis dice:

noviembre 19, 2019 en 9:37 am

Hola. Muy buen tutorial. Me ha gustado mucho. ¿Podrías decirme en cual puedo ver cómo convertir una imagen a texto?. Muchas gracias por tu
- parzibyte dice:
  
  noviembre 19, 2019 en 10:12 pm
  
  Hola, aquí puedes ver cómo usarlo después de su instalación:
  https://parzibyte.me/blog/2019/05/25/reconocimiento-optico-caracteres-tesseract-ocr/
  Saludos