Преобразование PDF в документы Microsoft Word на Python

Обзор

Эта статья объясняет, как конвертировать PDF в документы Microsoft Word с использованием Python. Она охватывает следующие темы.

Формат: DOC

Формат: DOCX

Формат: Word

Python PDF to DOC и DOCX Конвертация

Одна из самых популярных функций — это конвертация PDF в Microsoft Word DOC, что упрощает управление контентом. Aspose.PDF for Python позволяет конвертировать PDF файлы не только в DOC, но и в DOCX формат, легко и эффективно.

Конвертация PDF в DOC (Word 97-2003) файл

Конвертируйте PDF файл в формат DOC с легкостью и полным контролем. Aspose.PDF for Python гибок и поддерживает широкий спектр конверсий. Например, конвертация страниц из PDF документов в изображения является очень популярной функцией.

Конвертация, которую запрашивали многие наши клиенты, это PDF в DOC: преобразование PDF файла в документ Microsoft Word. Клиенты хотят это, потому что PDF файлы нельзя легко редактировать, тогда как документы Word можно. Некоторые компании хотят, чтобы их пользователи могли изменять текст, таблицы и изображения в файлах, которые изначально были PDF.

Сохраняя традицию делать вещи простыми и понятными, Aspose.PDF for Python позволяет преобразовать исходный PDF файл в DOC файл с помощью двух строк кода. Чтобы реализовать эту функцию, мы ввели перечисление с именем SaveFormat, и его значение .Doc позволяет сохранить исходный файл в формате Microsoft Word.

Следующий фрагмент кода на Python показывает процесс преобразования файла PDF в формат DOC.

Шаги: Конвертация PDF в DOC на Python

  1. Создайте экземпляр объекта Document с исходным PDF-документом.
  2. Сохраните его в формате SaveFormat.Doc, вызвав метод Document.Save().

from asposepdf import Api

documentName = "testdata/Hello.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/out.doc"
doc.save(documentOutName, Api.SaveFormat.Doc)

Использование класса DocSaveOptions

Класс DocSaveOptions предоставляет множество свойств, которые улучшают процесс преобразования PDF-файлов в формат DOC. Среди этих свойств Mode позволяет вам указать режим распознавания для содержимого PDF. Вы можете указать любое значение из перечисления RecognitionMode для этого свойства. Каждое из этих значений имеет свои конкретные преимущества и ограничения:


from asposepdf import Api

DIR_INPUT = "testdata/"
DIR_OUTPUT = "testout/"

input_pdf = DIR_INPUT + "Hello.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.doc"
# Открыть PDF документ
document = Api.Document(input_pdf)

save_options = Api.DocSaveOptions()
save_options.format = Api.DocSaveOptions.DocFormat.Doc
# Установить режим распознавания как Flow
save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
# Установить горизонтальную близость как 2.5
save_options.relative_horizontal_proximity = 2.5
# Включить опцию распознавания маркеров во время процесса конверсии
save_options.recognize_bullets = True

# Сохранить файл в формате MS Word документа
document.save(output_pdf, save_options)

Преобразование PDF в DOCX

Aspose.PDF для Python API позволяет читать и конвертировать PDF-документы в DOCX с помощью Python через .NET. DOCX — это известный формат для документов Microsoft Word, структура которого была изменена с простого бинарного на комбинацию XML и бинарных файлов. Файлы Docx могут быть открыты в Word 2007 и более поздних версиях, но не в более ранних версиях MS Word, которые поддерживают расширения файлов DOC.

Следующий фрагмент кода на Python показывает процесс преобразования файла PDF в формат DOCX.

Шаги: Преобразование PDF в DOCX на Python

  1. Создайте экземпляр объекта Document с исходным PDF-документом.

  2. Сохраните его в формате SaveFormat.DocX, вызвав метод Document.Save().



from asposepdf import Api

DIR_INPUT = "testdata/"
DIR_OUTPUT = "testout/"

input_pdf = DIR_INPUT + "Hello.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.docx"
# Открыть PDF документ
document = Api.Document(input_pdf)

save_options = Api.DocSaveOptions()
save_options.format = Api.DocSaveOptions.DocFormat.Docx
# Установить режим распознавания как Flow
save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
# Установить горизонтальную близость как 2.5
save_options.relative_horizontal_proximity = 2.5
# Включить значение для распознавания маркеров в процессе конверсии
save_options.recognize_bullets = True

# Сохранить файл в формате документа MS Word
document.save(output_pdf, save_options)

Класс DocSaveOptions имеет свойство под названием Format, которое предоставляет возможность указать формат результирующего документа, то есть DOC или DOCX. Для того чтобы преобразовать файл PDF в формат DOCX, передайте значение Docx из перечисления DocSaveOptions.DocFormat.

См. также

Эта статья также охватывает следующие темы. Коды такие же, как и выше.

Формат: Word

Format: DOCX