Extraer texto de imagen con PHP y Tesseract - OCR

En este post de programación en PHP te mostraré cómo extraer el texto de imágenes o mejor dicho cómo usar Tesseract OCR desde este lenguaje, de modo que podamos digitalizar el texto de una imagen usando PHP. Al final esto que te muestro es un simple wrapper o una envoltura, ya que si bien vamos a procesar la imagen con PHP, internamente vamos a invocar a Tesseract. Pero bueno, al final veremos cómo usar OCR con PHP para extraer el texto de imágenes. Obviamente te voy a dejar el ejemplo de código. ...

octubre 17, 2021 · 4 min · 711 palabras · Parzibyte

Modo silencioso en Tesseract OCR

En este corto post de Tesseract OCR (programa para detectar texto en imágenes, o mejor dicho, extraer texto de imágenes) te mostraré cómo habilitar el modo silencioso de modo que no imprima nada de información, únicamente el texto detectado. ...

octubre 16, 2021 · 1 min · 130 palabras · Parzibyte

Reconocimiento óptico de caracteres con Tesseract OCR

En este post vamos a ver cómo convertir imágenes a texto; es decir, leer el texto que está dentro de una imagen; ya sea una foto de un libro, una captura de pantalla o una imagen escaneada. A esto se le llama digitalización de textos, reconocimiento óptico de caracteres u OCR. Vamos a usar Tesseract OCR, el cual es un proyecto open source que trata sobre un motor de reconocimiento de texto en imágenes. Recuerda que ya vimos cómo se instala y configura en Windows 10 y en Ubuntu. Vamos a probar el reconocimiento óptico de caracteres con muchas imágenes, es decir, leer el texto de una imagen ya sea desde una captura de pantalla o una foto, incluso desde un escaneo. Cabe mencionar que la captura es de una nota que tomé del libro La rebelión de Atlas cuando Dagny conoce, al fin, a John Galt. ...

mayo 26, 2019 · 4 min · 679 palabras · Parzibyte