Преобразование PDF в документы Microsoft Word на Python
Обзор
Эта статья объясняет, как конвертировать PDF в документы Microsoft Word с использованием Python. Она охватывает следующие темы.
Формат: DOC
Формат: DOCX
Формат: Word
Python PDF to DOC и DOCX Конвертация
Одна из самых популярных функций — это конвертация PDF в Microsoft Word DOC, что упрощает управление контентом. Aspose.PDF for Python позволяет конвертировать PDF файлы не только в DOC, но и в DOCX формат, легко и эффективно.
Конвертация PDF в DOC (Word 97-2003) файл
Конвертируйте PDF файл в формат DOC с легкостью и полным контролем. Aspose.PDF for Python гибок и поддерживает широкий спектр конверсий. Например, конвертация страниц из PDF документов в изображения является очень популярной функцией.
Конвертация, которую запрашивали многие наши клиенты, это PDF в DOC: преобразование PDF файла в документ Microsoft Word. Клиенты хотят это, потому что PDF файлы нельзя легко редактировать, тогда как документы Word можно. Некоторые компании хотят, чтобы их пользователи могли изменять текст, таблицы и изображения в файлах, которые изначально были PDF.
Сохраняя традицию делать вещи простыми и понятными, Aspose.PDF for Python позволяет преобразовать исходный PDF файл в DOC файл с помощью двух строк кода. Чтобы реализовать эту функцию, мы ввели перечисление с именем SaveFormat, и его значение .Doc позволяет сохранить исходный файл в формате Microsoft Word.
Следующий фрагмент кода на Python показывает процесс преобразования файла PDF в формат DOC.
Шаги: Конвертация PDF в DOC на Python
- Создайте экземпляр объекта Document с исходным PDF-документом.
- Сохраните его в формате SaveFormat.Doc, вызвав метод Document.Save().
from asposepdf import Api
documentName = "testdata/Hello.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/out.doc"
doc.save(documentOutName, Api.SaveFormat.Doc)
Использование класса DocSaveOptions
Класс DocSaveOptions предоставляет множество свойств, которые улучшают процесс преобразования PDF-файлов в формат DOC. Среди этих свойств Mode позволяет вам указать режим распознавания для содержимого PDF. Вы можете указать любое значение из перечисления RecognitionMode для этого свойства. Каждое из этих значений имеет свои конкретные преимущества и ограничения:
from asposepdf import Api
DIR_INPUT = "testdata/"
DIR_OUTPUT = "testout/"
input_pdf = DIR_INPUT + "Hello.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.doc"
# Открыть PDF документ
document = Api.Document(input_pdf)
save_options = Api.DocSaveOptions()
save_options.format = Api.DocSaveOptions.DocFormat.Doc
# Установить режим распознавания как Flow
save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
# Установить горизонтальную близость как 2.5
save_options.relative_horizontal_proximity = 2.5
# Включить опцию распознавания маркеров во время процесса конверсии
save_options.recognize_bullets = True
# Сохранить файл в формате MS Word документа
document.save(output_pdf, save_options)
Попробуйте конвертировать PDF в DOC онлайн
Aspose.PDF for Python предлагает вам бесплатное онлайн-приложение “PDF to DOC”, где вы можете попробовать исследовать функциональность и качество его работы.
Преобразование PDF в DOCX
Aspose.PDF для Python API позволяет читать и конвертировать PDF-документы в DOCX с помощью Python через .NET. DOCX — это известный формат для документов Microsoft Word, структура которого была изменена с простого бинарного на комбинацию XML и бинарных файлов. Файлы Docx могут быть открыты в Word 2007 и более поздних версиях, но не в более ранних версиях MS Word, которые поддерживают расширения файлов DOC.
Следующий фрагмент кода на Python показывает процесс преобразования файла PDF в формат DOCX.
Шаги: Преобразование PDF в DOCX на Python
-
Создайте экземпляр объекта Document с исходным PDF-документом.
-
Сохраните его в формате SaveFormat.DocX, вызвав метод Document.Save().
from asposepdf import Api
DIR_INPUT = "testdata/"
DIR_OUTPUT = "testout/"
input_pdf = DIR_INPUT + "Hello.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.docx"
# Открыть PDF документ
document = Api.Document(input_pdf)
save_options = Api.DocSaveOptions()
save_options.format = Api.DocSaveOptions.DocFormat.Docx
# Установить режим распознавания как Flow
save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
# Установить горизонтальную близость как 2.5
save_options.relative_horizontal_proximity = 2.5
# Включить значение для распознавания маркеров в процессе конверсии
save_options.recognize_bullets = True
# Сохранить файл в формате документа MS Word
document.save(output_pdf, save_options)
Класс DocSaveOptions имеет свойство под названием Format, которое предоставляет возможность указать формат результирующего документа, то есть DOC или DOCX. Для того чтобы преобразовать файл PDF в формат DOCX, передайте значение Docx из перечисления DocSaveOptions.DocFormat.
Попробуйте преобразовать PDF в DOCX онлайн
Aspose.PDF для Python предлагает вам бесплатное онлайн-приложение “PDF в Word”, где вы можете попробовать исследовать, как работают его функциональные возможности и качество.
См. также
Эта статья также охватывает следующие темы. Коды такие же, как и выше.
Формат: Word
-
Конвертер PDF в Word на Python Format: DOC
Format: DOCX