Reconocimiento óptico de caracteres con Tesseract OCR

En este post vamos a ver cómo convertir imágenes a texto; es decir, leer el texto que está dentro de una imagen; ya sea una foto de un libro, una captura de pantalla o una imagen escaneada. A esto se le llama digitalización de textos, reconocimiento óptico de caracteres u OCR. Vamos a usar Tesseract OCR, el cual es un proyecto open source que trata sobre un motor de reconocimiento de texto en imágenes. Recuerda que ya vimos cómo se instala y configura en Windows 10 y en Ubuntu. Vamos a probar el reconocimiento óptico de caracteres con muchas imágenes, es decir, leer el texto de una imagen ya sea desde una captura de pantalla o una foto, incluso desde un escaneo. Cabe mencionar que la captura es de una nota que tomé del libro La rebelión de Atlas cuando Dagny conoce, al fin, a John Galt. ...

mayo 26, 2019 · 4 min · 679 palabras · Parzibyte

Instalar Tesseract OCR + Idioma español en Ubuntu

Anteriormente en mi blog vimos cómo instalar Tesseract OCR en Windows 10 con los modelos para detectar el idioma español en el texto dentro de la imagen. Tesseract OCR es un motor de reconocimiento óptico de caracteres, es decir, un motor que extrae el texto de una imagen, o digitaliza el contenido de una imagen, un escaneo, una foto o una captura de pantalla. En este post vamos a ver cómo instalar Tesseract OCR en Ubuntu, además del idioma español o mejor dicho los modelos para trabajar con el idioma español. ...

mayo 19, 2019 · 1 min · 213 palabras · Parzibyte