Преобразование PDF в Excel на Python

Обзор

Эта статья объясняет, как преобразовывать PDF в форматы Excel с использованием Python. Она охватывает следующие темы.

Формат: XLS

Формат: XLSX

Формат: Excel

Формат: CSV

Формат: ODS

Конвертация PDF в EXCEL с помощью Python

Aspose.PDF для Python через .NET поддерживает возможность конвертации PDF файлов в форматы Excel и CSV.

Aspose.PDF для Python через Java - это компонент для работы с PDF, и мы внедрили функцию, которая преобразует PDF файл в книгу Excel (XLSX файлы). Во время этого преобразования отдельные страницы PDF файла преобразуются в листы Excel.

Следующий фрагмент кода показывает процесс преобразования PDF файла в формат XLS или XLSX с использованием Aspose.PDF для Python через Java.

Шаги: Преобразование PDF в XLS на Python

  1. Создайте экземпляр объекта Document с исходным PDF документом.
  2. Создайте экземпляр ExcelSaveOptions.
  3. Сохраните его в формате XLS, указав расширение .xls, вызвав метод Document.Save() и передав ему ExcelSaveOptions.

from asposepdf import Api

# инициализация лицензии
documentName = "testdata/license/Aspose.PDF.PythonviaJava.lic"
licenseObject = Api.License()
licenseObject.setLicense(documentName)

# конвертация из массива байтов
documentName = "testdata/source.pdf"
with open(documentName, "rb") as file:
    byte_array = file.read()
doc = Api.Document(byte_array)
documentOutName = "testout/result1.xls"
doc.save(documentOutName, Api.SaveFormat.Excel)

# конвертация из файла
documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result2.xls"
doc.save(documentOutName, Api.SaveFormat.Excel)

# конвертация из массива байтов
documentName = "testdata/source.pdf"
with open(documentName, "rb") as file:
    byte_array = file.read()
doc = Api.Document(byte_array)
documentOutName = "testout/result3.xls"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
doc.save(documentOutName, Api.SaveFormat.Excel)

# конвертация из файла
documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result4.xls"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
doc.save(documentOutName, Api.SaveFormat.Excel)

Шаги: Конвертация PDF в XLSX на Python

  1. Создайте экземпляр объекта Document с исходным PDF документом.
  2. Создайте экземпляр ExcelSaveOptions.
  3. Сохраните его в формате XLSX, указав расширение .xlsx, вызвав метод Document.Save() и передав ему ExcelSaveOptions.

from asposepdf import Api

documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.xlsx"
doc.save(documentOutName, save_option)

Конвертация PDF в XLS с контролем столбца

При конвертации PDF в формат XLS в выходной файл добавляется пустой столбец в качестве первого столбца. The in ‘ExcelSaveOptions class’ параметр InsertBlankColumnAtFirst используется для управления этим столбцом. Значение по умолчанию — true.


from asposepdf import Api

documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.xlsx"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
save_option._insertBlankColumnAtFirst = True
doc.save(documentOutName, save_option)

Конвертация PDF в один лист Excel

При экспорте PDF-файла с большим количеством страниц в XLS каждая страница экспортируется на отдельный лист в файле Excel. Это происходит потому, что свойство MinimizeTheNumberOfWorksheets по умолчанию установлено в false. Чтобы все страницы экспортировались на один лист в выходном файле Excel, установите свойство MinimizeTheNumberOfWorksheets в true.

Шаги: Конвертация PDF в один лист XLS или XLSX в Python

  1. Создайте экземпляр объекта Document с исходным PDF-документом.
  2. Создайте экземпляр ExcelSaveOptions с MinimizeTheNumberOfWorksheets = True.
  3. Сохраните его в формате XLS или XLSX с одним листом, вызвав метод Document.Save() и передав ему ExcelSaveOptions.

from asposepdf import Api

documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.xls"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
save_option._minimizeTheNumberOfWorksheets = True
# Сохраните файл в формате MS Excel
doc.save(documentOutName, save_option)

Конвертация в другие форматы электронных таблиц

Конвертация в CSV

Преобразование в формат CSV выполняется так же, как и выше. Все, что вам нужно - установить соответствующий формат.

Шаги: Конвертация PDF в CSV в Python

  1. Создайте экземпляр объекта Document с исходным PDF документом.
  2. Создайте экземпляр ExcelSaveOptions с Format = ExcelSaveOptions.ExcelFormat.CSV
  3. Сохраните в формате CSV, вызвав метод Document.Save() и передав ему ExcelSaveOptions.

from asposepdf import Api

documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.csv"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.CSV
doc.save(documentOutName, save_option)

Преобразование в ODS

Шаги: Преобразование PDF в ODS на Python

  1. Создайте экземпляр объекта Document с исходным PDF-документом.
  2. Создайте экземпляр ExcelSaveOptions с Format = ExcelSaveOptions.ExcelFormat.ODS
  3. Сохраните его в формате ODS, вызвав метод Document.Save() и передав ему ExcelSaveOptions.

Преобразование в формат ODS выполняется так же, как и все другие форматы.


from asposepdf import Api

documentName = "../../testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "../../testout/result1.ods"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.ODS
doc.save(documentOutName, save_option)

См. Также

Эта статья также охватывает следующие темы. Коды такие же, как выше.

Формат: Excel

Формат: XLS

Формат: XLSX

Формат: CSV

Формат: ODS