python

PDF a imagen con Python

En este tutorial de Python veremos cómo convertir las páginas de un PDF a imagen, convirtiendo cada página del documento a una imagen y guardándola en el almacenamiento, indicando la resolución.

No vamos a extraer cómo extraer las imágenes del PDF, vamos a convertir las páginas de un PDF a imágenes con Python. Para esto vamos a usar pypdfium, un paquete de Python que es una vinculación de PDFium.

Instalando pypdfium

Vas a necesitar Python y pip. Una vez que tengas a pip.exe y python.exe en la path, ejecuta:

python -m pip install -U pypdfium2

PDF de ejemplo

Para demostrar el funcionamiento de este script de Python que convierte un PDF a imagen voy a usar un PDF que se basa en mi post de recetario, pero toma en cuenta que esto va a funcionar con cualquier PDF.

Convertir PDF a imagen con Python

Python – Convertir PDF a imágenes extrayendo cada página

Ahora veamos el script de Python. Lo que el código hace es:

  1. Abrir el PDF según su ubicación, usando pdfium.PdfDocument
  2. Obtener el nombre del PDF sin extensión, para que las imágenes de salida tengan el mismo nombre del PDF
  3. Recorrer las páginas del PDF, renderizar cada página según la escala y guardarla en el almacenamiento
  4. Guardar cada imagen con el mismo nombre que el PDF, agregando el número de página al final

El código queda como se ve a continuación:

import pypdfium2 as pdfium
from pathlib import Path

nombre_pdf = "recetario.pdf"
nombre_pdf_sin_extension = Path(nombre_pdf).stem
escala = 3  # Entre mayor escala, mejor calidad y más peso
pdf = pdfium.PdfDocument(nombre_pdf)
cantidad_paginas = len(pdf)
for indice_pagina in range(cantidad_paginas):
    numero_pagina = indice_pagina+1
    print(f"Extrayendo página {numero_pagina} de {cantidad_paginas}")
    pagina = pdf.get_page(indice_pagina)
    imagen_para_pil = pagina.render(scale=escala).to_pil()
    imagen_para_pil.save(f"{nombre_pdf_sin_extension}_{numero_pagina}.png")

Al ejecutarlo, suponiendo que el PDF existe, se van a extraer las páginas como imagen. En cuanto a la escala:

  1. Por defecto es 1
  2. Se recomienda que sea 4.16
  3. Entre más grande, mejor calidad de imagen, pero mayor peso

Una vez que tengamos las páginas del PDF separadas con Python podemos rotarlas, modificarlas o comprimirlas y más adelante convertir esas imágenes en un PDF.

Estoy aquí para ayudarte 🤝💻


Estoy aquí para ayudarte en todo lo que necesites. Si requieres alguna modificación en lo presentado en este post, deseas asistencia con tu tarea, proyecto o precisas desarrollar un software a medida, no dudes en contactarme. Estoy comprometido a brindarte el apoyo necesario para que logres tus objetivos. Mi correo es parzibyte(arroba)gmail.com, estoy como@parzibyte en Telegram o en mi página de contacto

No te pierdas ninguno de mis posts 🚀🔔

Suscríbete a mi canal de Telegram para recibir una notificación cuando escriba un nuevo tutorial de programación.
parzibyte

Programador freelancer listo para trabajar contigo. Aplicaciones web, móviles y de escritorio. PHP, Java, Go, Python, JavaScript, Kotlin y más :) https://parzibyte.me/blog/software-creado-por-parzibyte/

Entradas recientes

Resetear GOOJPRT PT-210 MTP-II (Impresora térmica)

El día de hoy vamos a ver cómo restablecer la impresora térmica GOOJPRT PT-210 a…

1 semana hace

Proxy Android para impresora térmica ESC POS

Hoy voy a enseñarte cómo imprimir en una impresora térmica conectada por USB a una…

1 semana hace

Android – Servidor web con servicio en segundo plano

En este post voy a enseñarte a programar un servidor web en Android asegurándonos de…

1 semana hace

Cancelar trabajo de impresión con C++

En este post te quiero compartir un código de C++ para listar y cancelar trabajos…

1 mes hace

Copiar bytes de Golang a JavaScript con WebAssembly

Gracias a WebAssembly podemos ejecutar código de otros lenguajes de programación desde el navegador web…

2 meses hace

Imprimir PDF con Ghostscript en Windows de manera programada

Revisando y buscando maneras de imprimir un PDF desde la línea de comandos me encontré…

2 meses hace