Eliminar Páginas en Blanco de Documentos PDF con Python
La gestión de documentos PDF puede ser un desafío, especialmente cuando se trata de cumplir con requisitos burocráticos que demandan la impresión de múltiples archivos. En un proyecto reciente, me enfrenté a la tediosa tarea de eliminar páginas en blanco de cientos de documentos PDF. Aunque herramientas como Adobe Acrobat Professional son útiles, el volumen de documentos hizo que el proceso fuera lento y laborioso. Fue entonces cuando decidí automatizar esta tarea con un script en Python.
En este artículo, te guiaré sobre cómo utilizar este script para eliminar páginas en blanco de tus documentos PDF de manera rápida y eficiente.
Instalación de Librerías Necesarias
Antes de comenzar, asegúrate de tener Python instalado en tu sistema. Luego, necesitarás instalar la biblioteca PyPDF2
, que es fundamental para manipular archivos PDF. Aquí te mostramos cómo hacerlo:
- Abre tu terminal o línea de comandos.
-
Ejecuta el siguiente comando:
pip install PyPDF2
Cómo Utilizar el Script
Sigue estos sencillos pasos para usar el script y eliminar las páginas en blanco de tus documentos PDF:
1. Descarga el Script
Copia el siguiente código en un archivo llamado remove_blank_pages.py
:
# -*- coding: utf-8 -*-
import os
from PyPDF2 import PdfReader, PdfWriter
def is_blank_page(page):
text = page.extract_text()
return not text.strip()
def remove_blank_pages(pdf_path, output_path):
reader = PdfReader(pdf_path)
writer = PdfWriter()
for page in reader.pages:
if not is_blank_page(page):
writer.add_page(page)
with open(output_path, 'wb') as output_pdf:
writer.write(output_pdf)
def process_pdfs_in_directory():
directory_path = os.path.dirname(os.path.abspath(__file__))
processed_dir = os.path.join(directory_path, 'processed')
os.makedirs(processed_dir, exist_ok=True)
for filename in os.listdir(directory_path):
if filename.endswith('.pdf'):
input_path = os.path.join(directory_path, filename)
output_path = os.path.join(processed_dir, f"processed_{filename}")
remove_blank_pages(input_path, output_path)
print(f"Processed {filename}")
process_pdfs_in_directory()
input("Presiona Enter para cerrar...")
2. Coloca tus Documentos PDF
Asegúrate de que todos los documentos PDF que deseas procesar estén en la misma carpeta donde guardaste el script remove_blank_pages.py
. Esto es crucial, ya que el script escaneará todos los archivos PDF en esa carpeta.
3. Ejecuta el Script
Para ejecutar el script, sigue estos pasos:
- Abre tu terminal o línea de comandos.
-
Navega hasta el directorio donde se encuentra el script y tus documentos PDF. Puedes usar el comando
cd
para cambiar de directorio. Por ejemplo:cd ruta/a/tu/carpeta
-
Ejecuta el script con el siguiente comando:
python remove_blank_pages.py
4. Revisa los Resultados
Una vez que el script haya terminado de ejecutarse, encontrarás una nueva carpeta llamada processed
dentro del mismo directorio. En esta carpeta, se guardarán las versiones de tus documentos PDF sin las páginas en blanco. Cada archivo procesado llevará el prefijo processed_
en su nombre.
Siguiendo estos pasos simples, puedes utilizar un script en Python para automatizar el proceso y ahorrar tiempo valioso.