Extraer texto e imágenes de PDF con PHP

Hoy vamos a ver cómo extraer el texto de un documento PDF, y también cómo extraer las imágenes que tiene el documento. De esta manera podemos procesar un archivo PDF e indexarlo, ya que por defecto un archivo PDF no es legible como un txt u otro archivo simple. Para leer un archivo PDF con PHP vamos a usar la librería PdfParser, la cual proporciona varias herramientas para extraer datos de un archivo PDF. ...

junio 17, 2019 · 4 min · 676 palabras · Parzibyte

Extraer el texto de una imagen con JavaScript y Tesseract.js - Aplicación web

Hace algún tiempo presenté el uso de la librería de JavaScript llamada Tesseract.Js, la cual sirve para extraer el texto de una imagen o convertir una imagen a texto. Aparte de extraer el texto de una imagen también lo puede hacer de una foto o de una imagen escaneada como lo vimos en la demostración de Tesseract OCR. En el post en donde hablo de la librería prometí que haría una app para demostrar el funcionamiento y uso, y es justamente lo que vengo a presentar hoy: una aplicación web que sirve para extraer el texto de una imagen. Funciona en Firefox y Google Chrome en Windows y Android, no he probado en otros navegadores. ...

mayo 29, 2019 · 1 min · 202 palabras · Parzibyte