Convertir PDF a Excel en Python
Descripción general
Este artículo explica cómo convertir PDF a formatos de Excel usando Python. Cubre los siguientes temas.
Formato: XLS
Formato: XLSX
Formato: Excel
Formato: CSV
Formato: ODS
Conversión de PDF a EXCEL mediante Python
Aspose.PDF para Python a través de .NET soporta la función de convertir archivos PDF a formatos Excel y CSV.
Aspose.PDF para Python a través de Java es un componente de manipulación de PDF, hemos introducido una función que convierte archivos PDF a libros de Excel (archivos XLSX). Durante esta conversión, las páginas individuales del archivo PDF se convierten en hojas de cálculo de Excel.
Intenta convertir PDF a Excel en línea
Aspose.PDF te presenta una aplicación en línea gratuita “PDF a XLSX”, donde puedes intentar investigar la funcionalidad y la calidad con la que trabaja.
El siguiente fragmento de código muestra el proceso para convertir un archivo PDF en formato XLS o XLSX con Aspose.PDF para Python a través de Java.
Pasos: Convertir PDF a XLS en Python
- Crear una instancia del objeto Document con el documento PDF de origen.
- Crear una instancia de ExcelSaveOptions.
- Guardarlo en formato XLS especificando la extensión .xls llamando al método Document.Save() y pasándole ExcelSaveOptions.
from asposepdf import Api
# inicializar licencia
documentName = "testdata/license/Aspose.PDF.PythonviaJava.lic"
licenseObject = Api.License()
licenseObject.setLicense(documentName)
# conversión desde array de bytes
documentName = "testdata/source.pdf"
with open(documentName, "rb") as file:
byte_array = file.read()
doc = Api.Document(byte_array)
documentOutName = "testout/result1.xls"
doc.save(documentOutName, Api.SaveFormat.Excel)
# conversión desde archivo
documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result2.xls"
doc.save(documentOutName, Api.SaveFormat.Excel)
# conversión desde array de bytes
documentName = "testdata/source.pdf"
with open(documentName, "rb") as file:
byte_array = file.read()
doc = Api.Document(byte_array)
documentOutName = "testout/result3.xls"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
doc.save(documentOutName, Api.SaveFormat.Excel)
# conversión desde archivo
documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result4.xls"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
doc.save(documentOutName, Api.SaveFormat.Excel)
Pasos: Convertir PDF a XLSX en Python
- Crear una instancia del objeto Document con el documento PDF de origen.
- Crear una instancia de ExcelSaveOptions.
- Guardarlo en formato XLSX especificando la extensión .xlsx llamando al método Document.Save() y pasándole ExcelSaveOptions.
from asposepdf import Api
documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.xlsx"
doc.save(documentOutName, save_option)
Convertir PDF a XLS con control de Columna
Al convertir un PDF a formato XLS, se añade una columna en blanco al archivo de salida como primera columna. El uso de la opción InsertBlankColumnAtFirst en la ‘clase ExcelSaveOptions’ es para controlar esta columna. Su valor predeterminado es true.
from asposepdf import Api
documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.xlsx"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
save_option._insertBlankColumnAtFirst = True
doc.save(documentOutName, save_option)
Convertir PDF a una sola hoja de cálculo de Excel
Al exportar un archivo PDF con muchas páginas a XLS, cada página se exporta a una hoja diferente en el archivo Excel. Esto se debe a que la propiedad MinimizeTheNumberOfWorksheets está configurada como false por defecto. Para asegurarse de que todas las páginas se exporten a una sola hoja en el archivo Excel de salida, configure la propiedad MinimizeTheNumberOfWorksheets como true.
Pasos: Convertir PDF a una sola hoja de cálculo XLS o XLSX en Python
- Cree una instancia del objeto Document con el documento PDF de origen.
- Cree una instancia de ExcelSaveOptions con MinimizeTheNumberOfWorksheets = True.
- Guárdelo en formato XLS o XLSX teniendo una sola hoja de cálculo llamando al método Document.Save() y pasándole ExcelSaveOptions.
from asposepdf import Api
documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.xls"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
save_option._minimizeTheNumberOfWorksheets = True
# Guardar el archivo en formato MS Excel
doc.save(documentOutName, save_option)
Convertir a otros formatos de hoja de cálculo
Convertir a CSV
La conversión al formato CSV se realiza de la misma manera que arriba. Todo lo que necesitas es establecer el formato adecuado.
Pasos: Convertir PDF a CSV en Python
- Crea una instancia del objeto Document con el documento PDF de origen.
- Crea una instancia de ExcelSaveOptions con Format = ExcelSaveOptions.ExcelFormat.CSV
- Guárdalo en formato CSV llamando al método Document.Save() y pasándolo ExcelSaveOptions.
from asposepdf import Api
documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.csv"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.CSV
doc.save(documentOutName, save_option)
Convertir a ODS
Pasos: Convertir PDF a ODS en Python
- Cree una instancia del objeto Document con el documento PDF de origen.
- Cree una instancia de ExcelSaveOptions con Format = ExcelSaveOptions.ExcelFormat.ODS
- Guárdelo en formato ODS llamando al método Document.Save() y pasándole ExcelSaveOptions.
La conversión al formato ODS se realiza de la misma manera que todos los demás formatos.
from asposepdf import Api
documentName = "../../testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "../../testout/result1.ods"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.ODS
doc.save(documentOutName, save_option)
Ver también
Este artículo también cubre estos temas. Los códigos son los mismos que arriba.
Formato: Excel
- Código de Python de PDF a Excel
- API de Python de PDF a Excel
- Python de PDF a Excel Programáticamente
- Biblioteca de Python de PDF a Excel
- Guardar PDF como Excel en Python
- Generar Excel desde PDF en Python
- Crear Excel desde PDF en Python
- Convertidor de Python de PDF a Excel
Formato: XLS
- Código de Python de PDF a XLS
- API de Python de PDF a XLS
- Python de PDF a XLS Programáticamente
- Biblioteca de Python de PDF a XLS
- Guardar PDF como XLS en Python
- Generar XLS desde PDF en Python
- Crear XLS desde PDF en Python
- Convertidor de Python de PDF a XLS
Formato: XLSX
- Código de Python de PDF a XLSX
- API de Python PDF a XLSX
- Programáticamente de Python PDF a XLSX
- Biblioteca de Python PDF a XLSX
- Guardar PDF de Python como XLSX
- Generar XLSX de PDF en Python
- Crear XLSX de PDF en Python
- Convertidor de Python PDF a XLSX
Formato: CSV
- Código de Python PDF a CSV
- API de Python PDF a CSV
- Programáticamente de Python PDF a CSV
- Biblioteca de Python PDF a CSV
- Guardar PDF de Python como CSV
- Generar CSV de PDF en Python
- Crear CSV de PDF en Python
- Convertidor de Python PDF a CSV
Formato: ODS