Tesseract OCR es un proyecto open source que trata sobre un motor de reconocimiento de texto en imágenes. Está disponible para Mac, Windows y Linux.

Hay buenas noticias para los hispanohablantes, pues Tesseract OCR tiene soporte para el español y la verdad es que me ha dejado maravillado con su precisión de reconocimiento.

En este post vamos a ver cómo instalar Tesseract OCR en Windows 10 para digitalizar imágenes, ya sea escaneos, fotos o capturas; cualquier imagen conteniendo texto será válida.

Resumiendo, vamos a ver:

  • Cómo instalar Tesseract OCR en Windows
  • Descargar el soporte para el idioma español
  • Agregar Tesseract OCR a PATH de Windows
  • Probar instalación de Tesseract

No te preocupes, este es un post inicial que sentará las bases para otros proyectos y demostraciones. Lo primero es instalar, descargar y configurar Tesseract, y lo segundo es usarlo.

Nota: si ya has instalado Tesseract mira cómo se usa aquí.

Descargar Tesseract OCR

Vamos a la wiki en GitHub y descargamos la versión para nuestra computadora, ya sea de 32 o 64 bits:

1 – Descargar instalador de tesseract ocr según arquitectura

Cuando se descargue lo ejecutamos como administrador y damos todos los permisos necesarios.

Aceptamos licencias y hacemos click en Siguiente; dejamos todo por defecto:

2 – Instalando tesseract ocr

Eso habrá instalado tesseract OCR en Windows. La ruta en donde se instaló por defecto es:

C:\Program Files\Tesseract-OCR

Guarda esa ruta, pues la vamos a ocupar más tarde.

Descargar idioma español

Por defecto, tesseract incluye únicamente el inglés. Para agregar más idiomas vamos al repositorio necesario, pero hay 2 maneras.

  • La primera forma son los modelos rápidos
  • La segunda, son los mejores modelos
Relacionado:  Crear memoria de arranque (booteable) con Rufus

Es decir, la primera es rápida pero no tan precisa, y la segunda es un poco más lenta pero precisa. Yo elegí la segunda y va de maravilla.

El modelo que es rápido se encuentra aquí, baja hasta encontrar el idioma que dice spa y descárgalo.

3 – Idioma español rápido

En caso de que quieras el mejor modelo (recomendado), igualmente en español, visita esta página. Baja hasta encontrar spa.traineddata:

3 – Idioma español mejor

Después haz click en Download.

Instalar idioma español

Sin importar si seleccionaste la rápida o la mejor, tendrás un archivo llamado spa.traineddata.

Ese archivo vamos a colocarlo en la ruta de instalación de Tesseract OCR (si no lo modificaste, recuerda que es C:\Program Files\Tesseract-OCR) dentro de la carpeta tessdata.

Personalmente la pondré en:

C:\Program Files\Tesseract-OCR\tessdata

De manera que se ve así:

4 – Colocar traineddata en carpeta de ocr

Agregar Tesseract a PATH

Para invocar el ejecutable tesseract desde cualquier lugar de la consola vamos a agregar la ruta de Tesseract (no la de tessdata, sino una carpeta arriba) a la Path de Windows.

Mira este post en donde se indica cómo se agrega la ruta a la PATH, al final debe lucir así:

5 – Agregar binario de tesseract a PATH de Windows

La ruta que hay que agregar es C:\Program Files\Tesseract-OCR en caso de que no hayas movido nada.

Probar instalación de Tesseract en Windows

Ahora, para probar todo lo configurado arriba, vamos a ejecutar el siguiente comando:

tesseract --list-langs

Con ello vamos a probar si agregamos tesseract a la PATH, y si instalamos el idioma español. La salida debe ser similar a la siguiente imagen:

6 – Listar idiomas instalados con tesseract

Ahí se puede observar que tenemos instalado el idioma spa, además de que el ejecutable tesseract funciona correctamente.

Relacionado:  Instalar compilador de C y C++ sobre Windows de 32 bits

Conclusión

Paciencia, que más adelante traeré la segunda parte y más posts sobre OCR desde algunos lenguajes de programación.

Te invito a suscribirte al blog en la parte de abajo.


Estoy disponible para trabajar en tu proyecto o realizar tu tarea pendiente, no dudes en ponerte en contacto conmigo.
Si el post fue de tu agrado muestra tu apoyo compartiéndolo, suscribiéndote al blog, siguiéndome o realizando una donación.

Suscribir por correo

Ingresa tu correo y recibirás mis últimas entradas sobre programación, open source, bases de datos y todo lo relacionado con informática

Únete a otros 613 suscriptores


parzibyte

Programador freelancer listo para trabajar contigo. Aplicaciones web, móviles y de escritorio. PHP, Java, Go, Python, JavaScript, Kotlin y más :) https://parzibyte.me/blog/software-creado-por-parzibyte/

4 Comments

Juan Luis · noviembre 19, 2019 a las 9:37 am

Hola. Muy buen tutorial. Me ha gustado mucho. ¿Podrías decirme en cual puedo ver cómo convertir una imagen a texto?. Muchas gracias por tu

Reconocimiento óptico de caracteres con Tesseract OCR - Parzibyte's blog · mayo 25, 2019 a las 8:00 pm

[…] que ya vimos cómo se instala y configura en Windows 10 y en […]

Instalar Tesseract OCR + Idioma español en Ubuntu - Parzibyte's blog · mayo 18, 2019 a las 8:00 pm

[…] en mi blog vimos cómo instalar Tesseract OCR en Windows 10 con los modelos para detectar el idioma español en el texto dentro de la […]

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

A %d blogueros les gusta esto: