Reconocimiento óptico de caracteres con Tesseract OCR

En este post vamos a ver cómo convertir imágenes a texto; es decir, leer el texto que está dentro de una imagen; ya sea una foto de un libro, una captura de pantalla o una imagen escaneada. A esto se le llama digitalización de textos, reconocimiento óptico de caracteres u OCR. Vamos a usar Tesseract OCR, el cual es un proyecto open source que trata sobre un motor de reconocimiento de texto en imágenes. Recuerda que ya vimos cómo se instala y configura en Windows 10 y en Ubuntu. Vamos a probar el reconocimiento óptico de caracteres con muchas imágenes, es decir, leer el texto de una imagen ya sea desde una captura de pantalla o una foto, incluso desde un escaneo. Cabe mencionar que la captura es de una nota que tomé del libro La rebelión de Atlas cuando Dagny conoce, al fin, a John Galt. ...

mayo 26, 2019 · 4 min · 679 palabras · Parzibyte