Extraer texto de imagen con PHP y Tesseract - OCR

En este post de programación en PHP te mostraré cómo extraer el texto de imágenes o mejor dicho cómo usar Tesseract OCR desde este lenguaje, de modo que podamos digitalizar el texto de una imagen usando PHP. Al final esto que te muestro es un simple wrapper o una envoltura, ya que si bien vamos a procesar la imagen con PHP, internamente vamos a invocar a Tesseract. Pero bueno, al final veremos cómo usar OCR con PHP para extraer el texto de imágenes. Obviamente te voy a dejar el ejemplo de código. ...

octubre 17, 2021 · 4 min · 711 palabras · Parzibyte

Modo silencioso en Tesseract OCR

En este corto post de Tesseract OCR (programa para detectar texto en imágenes, o mejor dicho, extraer texto de imágenes) te mostraré cómo habilitar el modo silencioso de modo que no imprima nada de información, únicamente el texto detectado. ...

octubre 16, 2021 · 1 min · 130 palabras · Parzibyte

Extraer el texto de una imagen con JavaScript y Tesseract.js - Aplicación web

Hace algún tiempo presenté el uso de la librería de JavaScript llamada Tesseract.Js, la cual sirve para extraer el texto de una imagen o convertir una imagen a texto. Aparte de extraer el texto de una imagen también lo puede hacer de una foto o de una imagen escaneada como lo vimos en la demostración de Tesseract OCR. En el post en donde hablo de la librería prometí que haría una app para demostrar el funcionamiento y uso, y es justamente lo que vengo a presentar hoy: una aplicación web que sirve para extraer el texto de una imagen. Funciona en Firefox y Google Chrome en Windows y Android, no he probado en otros navegadores. ...

mayo 29, 2019 · 1 min · 202 palabras · Parzibyte

Reconocimiento óptico de caracteres con JavaScript y Tesseract.js

Ya estamos en otro post sobre el reconocimiento óptico de caracteres, que no es otra cosa más que detectar el texto que existe dentro de una imagen, es decir, extraer el texto de una imagen. Lo hicimos con Tesseract OCR en Windows y Linux, pero ahora lo haremos en un lenguaje de programación que se ejecuta en el navegador: JavaScript. Sí, estás leyendo bien, vamos a extraer el texto de una imagen con JavaScript, usando Tesseract OCR, el cual es un motor de reconocimiento óptico de caracteres. ...

mayo 26, 2019 · 4 min · 697 palabras · Parzibyte

Instalar Tesseract OCR en Windows 10 para el reconocimiento de texto en imágenes

Tesseract OCR es un proyecto open source que trata sobre un motor de reconocimiento de texto en imágenes. Está disponible para Mac, Windows y Linux. Hay buenas noticias para los hispanohablantes, pues Tesseract OCR tiene soporte para el español y la verdad es que me ha dejado maravillado con su precisión de reconocimiento. En este post vamos a ver cómo instalar Tesseract OCR en Windows 10 para digitalizar imágenes, ya sea escaneos, fotos o capturas; cualquier imagen conteniendo texto será válida. Resumiendo, vamos a ver: Cómo instalar Tesseract OCR en Windows Descargar el soporte para el idioma español Agregar Tesseract OCR a PATH de Windows Probar instalación de Tesseract No te preocupes, este es un post inicial que sentará las bases para otros proyectos y demostraciones. Lo primero es instalar, descargar y configurar Tesseract, y lo segundo es usarlo. Nota: si ya has instalado Tesseract mira cómo se usa aquí. ...

mayo 12, 2019 · 3 min · 568 palabras · Parzibyte