En este post te voy a enseñar una manera de reducir el tamaño de un PDF usando Python. Lo que te presentaré aquí no es magia, la reducción del tamaño del PDF va a depender de la composición del mismo.
Si el PDF tiene varias imágenes, entonces su tamaño será reducido considerablemente. El enfoque que voy a usar es convertir el PDF a imágenes, comprimir cada imagen y volver a crear el PDF.
Seguramente existen otras maneras de comprimir un PDF pero te cuento que este método me funcionó con un PDF que tenía varias imágenes en alta calidad.
Python – Reducir tamaño de archivo
Para comprimir un PDF con Python simplemente seguimos las instrucciones que mencioné al principio:
- Convertir las páginas del PDF a imagen, con una imagen por página
- Por cada imagen existente, reducir su calidad. Básicamente cada imagen será una página del PDF.
- Una vez que todas las imágenes estén comprimidas, las unimos de nuevo en un PDF.
Ya he dedicado un post completo y a fondo a cada operación. Te recomiendo que revises cada post completo si tienes dudas. Recuerda que vas a necesitar Python y pip además de instalar:
- img2pdf:
pip install img2pdf
- pdfium2:
pip install pypdfium2
- pillow:
pip install pillow
El código queda así:
import pypdfium2 as pdfium
from pathlib import Path
from PIL import Image
import img2pdf
import os
nombre_pdf = "pesado.pdf"
nombre_pdf_comprimido = "comprimido.pdf"
nombre_pdf_sin_extension = Path(nombre_pdf).stem
escala = 2 # Escala para convertir PDF a imagen
"""
Extraer cada página del PDF como imagen
"""
pdf = pdfium.PdfDocument(nombre_pdf)
cantidad_paginas = len(pdf)
imagenes = []
for indice_pagina in range(cantidad_paginas):
numero_pagina = indice_pagina+1
nombre_imagen = f"{nombre_pdf_sin_extension}_{numero_pagina}.jpg"
imagenes.append(nombre_imagen)
print(f"Extrayendo página {numero_pagina} de {cantidad_paginas}")
pagina = pdf.get_page(indice_pagina)
imagen_para_pil = pagina.render(scale=escala).to_pil()
imagen_para_pil.save(nombre_imagen)
imagenes_comprimidas = []
"""
Comprimir imágenes.
Entre menor calidad, menos peso del PDF resultante
"""
calidad = 70
for nombre_imagen in imagenes:
print(f"Comprimiendo {nombre_imagen}...")
nombre_imagen_sin_extension = Path(nombre_imagen).stem
nombre_imagen_salida = nombre_imagen_sin_extension + \
"_comprimida" + nombre_imagen[nombre_imagen.rfind("."):]
imagen = Image.open(nombre_imagen)
imagen.save(nombre_imagen_salida, optimize=True, quality=calidad)
imagenes_comprimidas.append(nombre_imagen_salida)
"""
Escribir imágenes en un nuevo PDF
"""
print("Creando PDF comprimido...")
with open(nombre_pdf_comprimido, "wb") as documento:
documento.write(img2pdf.convert(imagenes_comprimidas))
"""
Eliminar imágenes temporales
"""
for imagen in imagenes + imagenes_comprimidas:
os.remove(imagen)
Ejemplo de compresión con Python
Tengo un PDF que pesa 11.9 MB, al comprimirlo con este script de Python usando una calidad de 70 y una escala de 2, he logrado reducirlo a 280 KB.
La reducción de tamaño no es magia; como te comenté anteriormente, su funcionamiento se basa en convertir cada página a imagen y después comprimirla. Si tu PDF no tiene muchas imágenes, probablemente no veas diferencias.