PythonでPDFをMicrosoft Word文書に変換する

概要

この記事では、Pythonを使用してPDFをMicrosoft Word文書に変換する方法について説明します。以下のトピックをカバーします。

フォーマット: DOC

フォーマット: DOCX

フォーマット: Word

Python PDF to DOCおよびDOCX変換

最も人気のある機能の1つは、PDFからMicrosoft Word DOCへの変換であり、コンテンツ管理を容易にします。Aspose.PDF for Pythonは、PDFファイルをDOCだけでなくDOCX形式にも簡単かつ効率的に変換することができます。

PDFをDOC(Word 97-2003)ファイルに変換

PDFファイルを簡単にDOC形式に変換し、完全に制御することができます。Aspose.PDF for Pythonは柔軟で、さまざまな変換をサポートしています。例えば、PDFドキュメントのページを画像に変換することは非常に人気のある機能です。

多くのお客様からリクエストされた変換は、PDFからDOCへの変換です。これは、PDFファイルをMicrosoft Wordドキュメントに変換することです。お客様は、PDFファイルは簡単に編集できないのに対し、Wordドキュメントは編集できるため、これを望んでいます。いくつかの企業は、ユーザーがPDFとして始まったファイルのテキスト、表、画像を操作できるようにしたいと考えています。

物事を簡単で理解しやすくするという伝統を守り続け、Aspose.PDF for Pythonでは、ソースPDFファイルを2行のコードでDOCファイルに変換できます。 この機能を実現するために、SaveFormatという列挙を導入しました。その値.DOCは、ソースファイルをMicrosoft Word形式で保存することができます。

以下のPythonコードスニペットは、PDFファイルをDOC形式に変換するプロセスを示しています。

ステップ: PythonでPDFをDOCに変換する

  1. ソースPDFドキュメントを持つDocumentオブジェクトのインスタンスを作成します。
  2. Document.Save()メソッドを呼び出して、SaveFormat.Doc形式で保存します。

from asposepdf import Api

documentName = "testdata/Hello.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/out.doc"
doc.save(documentOutName, Api.SaveFormat.Doc)

DocSaveOptionsクラスの使用

DocSaveOptionsクラスは、PDFファイルをDOC形式に変換するプロセスを改善する多数のプロパティを提供します。 これらのプロパティの中で、ModeはPDFコンテンツの認識モードを指定することを可能にします。このプロパティには、RecognitionMode列挙から任意の値を指定することができます。これらの各値には特定の利点と制限があります。


from asposepdf import Api

DIR_INPUT = "testdata/"
DIR_OUTPUT = "testout/"

input_pdf = DIR_INPUT + "Hello.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.doc"
# PDFドキュメントを開く
document = Api.Document(input_pdf)

save_options = Api.DocSaveOptions()
save_options.format = Api.DocSaveOptions.DocFormat.Doc
# 認識モードをFlowとして設定
save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
# 水平近似を2.5に設定
save_options.relative_horizontal_proximity = 2.5
# 変換プロセス中に箇条書きを認識するように値を有効にする
save_options.recognize_bullets = True

# ファイルをMS Wordドキュメント形式で保存
document.save(output_pdf, save_options)

PDFをDOCXに変換

Aspose.PDF for Python APIを使用すると、Python via .NETを使ってPDFドキュメントをDOCXに読み取り、変換することができます。DOCXは、Microsoft Wordドキュメントのためのよく知られたフォーマットであり、その構造はプレーンなバイナリからXMLとバイナリファイルの組み合わせに変更されました。DocxファイルはWord 2007およびそれ以降のバージョンで開くことができますが、DOCファイル拡張子をサポートする以前のMS Wordバージョンでは開くことができません。

以下のPythonコードスニペットは、PDFファイルをDOCX形式に変換するプロセスを示しています。

ステップ: PythonでPDFをDOCXに変換

  1. ソースPDFドキュメントを使用してDocumentオブジェクトのインスタンスを作成します。

  2. Document.Save() メソッドを呼び出して、SaveFormat.DocX 形式で保存します。



from asposepdf import Api

DIR_INPUT = "testdata/"
DIR_OUTPUT = "testout/"

input_pdf = DIR_INPUT + "Hello.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.docx"
# PDFドキュメントを開く
document = Api.Document(input_pdf)

save_options = Api.DocSaveOptions()
save_options.format = Api.DocSaveOptions.DocFormat.Docx
# 認識モードをFlowとして設定
save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
# 水平方向の近接度を2.5として設定
save_options.relative_horizontal_proximity = 2.5
# 変換プロセス中に箇条書きを認識するための値を有効にする
save_options.recognize_bullets = True

# ファイルをMS Wordドキュメント形式で保存
document.save(output_pdf, save_options)

DocSaveOptions クラスには、結果のドキュメントの形式を指定する機能を提供するFormatというプロパティがあり、DOCまたはDOCXです。 PDFファイルをDOCX形式に変換するには、DocSaveOptions.DocFormat列挙からDocx値を渡してください。

関連情報

この記事はこれらのトピックもカバーしています。コードは上記と同じです。

フォーマット: Word

Format: DOCX