Convertir PDF a Excel en Python

Descripción general

Este artículo explica cómo convertir PDF a formatos de Excel usando Python. Cubre los siguientes temas.

Formato: XLS

Formato: XLSX

Formato: Excel

Formato: CSV

Formato: ODS

Conversión de PDF a EXCEL mediante Python

Aspose.PDF para Python a través de .NET soporta la función de convertir archivos PDF a formatos Excel y CSV.

Aspose.PDF para Python a través de Java es un componente de manipulación de PDF, hemos introducido una función que convierte archivos PDF a libros de Excel (archivos XLSX). Durante esta conversión, las páginas individuales del archivo PDF se convierten en hojas de cálculo de Excel.

El siguiente fragmento de código muestra el proceso para convertir un archivo PDF en formato XLS o XLSX con Aspose.PDF para Python a través de Java.

Pasos: Convertir PDF a XLS en Python

  1. Crear una instancia del objeto Document con el documento PDF de origen.
  2. Crear una instancia de ExcelSaveOptions.
  3. Guardarlo en formato XLS especificando la extensión .xls llamando al método Document.Save() y pasándole ExcelSaveOptions.
from asposepdf import Api

# inicializar licencia
documentName = "testdata/license/Aspose.PDF.PythonviaJava.lic"
licenseObject = Api.License()
licenseObject.setLicense(documentName)

# conversión desde array de bytes
documentName = "testdata/source.pdf"
with open(documentName, "rb") as file:
    byte_array = file.read()
doc = Api.Document(byte_array)
documentOutName = "testout/result1.xls"
doc.save(documentOutName, Api.SaveFormat.Excel)

# conversión desde archivo
documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result2.xls"
doc.save(documentOutName, Api.SaveFormat.Excel)

# conversión desde array de bytes
documentName = "testdata/source.pdf"
with open(documentName, "rb") as file:
    byte_array = file.read()
doc = Api.Document(byte_array)
documentOutName = "testout/result3.xls"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
doc.save(documentOutName, Api.SaveFormat.Excel)

# conversión desde archivo
documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result4.xls"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
doc.save(documentOutName, Api.SaveFormat.Excel)

Pasos: Convertir PDF a XLSX en Python

  1. Crear una instancia del objeto Document con el documento PDF de origen.
  2. Crear una instancia de ExcelSaveOptions.
  3. Guardarlo en formato XLSX especificando la extensión .xlsx llamando al método Document.Save() y pasándole ExcelSaveOptions.

from asposepdf import Api

documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.xlsx"
doc.save(documentOutName, save_option)

Convertir PDF a XLS con control de Columna

Al convertir un PDF a formato XLS, se añade una columna en blanco al archivo de salida como primera columna. El uso de la opción InsertBlankColumnAtFirst en la ‘clase ExcelSaveOptions’ es para controlar esta columna. Su valor predeterminado es true.


from asposepdf import Api

documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.xlsx"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
save_option._insertBlankColumnAtFirst = True
doc.save(documentOutName, save_option)

Convertir PDF a una sola hoja de cálculo de Excel

Al exportar un archivo PDF con muchas páginas a XLS, cada página se exporta a una hoja diferente en el archivo Excel. Esto se debe a que la propiedad MinimizeTheNumberOfWorksheets está configurada como false por defecto. Para asegurarse de que todas las páginas se exporten a una sola hoja en el archivo Excel de salida, configure la propiedad MinimizeTheNumberOfWorksheets como true.

Pasos: Convertir PDF a una sola hoja de cálculo XLS o XLSX en Python

  1. Cree una instancia del objeto Document con el documento PDF de origen.
  2. Cree una instancia de ExcelSaveOptions con MinimizeTheNumberOfWorksheets = True.
  3. Guárdelo en formato XLS o XLSX teniendo una sola hoja de cálculo llamando al método Document.Save() y pasándole ExcelSaveOptions.

from asposepdf import Api

documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.xls"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
save_option._minimizeTheNumberOfWorksheets = True
# Guardar el archivo en formato MS Excel
doc.save(documentOutName, save_option)

Convertir a otros formatos de hoja de cálculo

Convertir a CSV

La conversión al formato CSV se realiza de la misma manera que arriba. Todo lo que necesitas es establecer el formato adecuado.

Pasos: Convertir PDF a CSV en Python

  1. Crea una instancia del objeto Document con el documento PDF de origen.
  2. Crea una instancia de ExcelSaveOptions con Format = ExcelSaveOptions.ExcelFormat.CSV
  3. Guárdalo en formato CSV llamando al método Document.Save() y pasándolo ExcelSaveOptions.

from asposepdf import Api

documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.csv"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.CSV
doc.save(documentOutName, save_option)

Convertir a ODS

Pasos: Convertir PDF a ODS en Python

  1. Cree una instancia del objeto Document con el documento PDF de origen.
  2. Cree una instancia de ExcelSaveOptions con Format = ExcelSaveOptions.ExcelFormat.ODS
  3. Guárdelo en formato ODS llamando al método Document.Save() y pasándole ExcelSaveOptions.

La conversión al formato ODS se realiza de la misma manera que todos los demás formatos.


from asposepdf import Api

documentName = "../../testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "../../testout/result1.ods"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.ODS
doc.save(documentOutName, save_option)

Ver también

Este artículo también cubre estos temas. Los códigos son los mismos que arriba.

Formato: Excel

Formato: XLS

Formato: XLSX

Formato: CSV

Formato: ODS