PythonでPDFをMicrosoft Word文書に変換する
概要
この記事では、Pythonを使用してPDFをMicrosoft Word文書に変換する方法について説明します。以下のトピックをカバーします。
フォーマット: DOC
フォーマット: DOCX
フォーマット: Word
Python PDF to DOCおよびDOCX変換
最も人気のある機能の1つは、PDFからMicrosoft Word DOCへの変換であり、コンテンツ管理を容易にします。Aspose.PDF for Pythonは、PDFファイルをDOCだけでなくDOCX形式にも簡単かつ効率的に変換することができます。
PDFをDOC(Word 97-2003)ファイルに変換
PDFファイルを簡単にDOC形式に変換し、完全に制御することができます。Aspose.PDF for Pythonは柔軟で、さまざまな変換をサポートしています。例えば、PDFドキュメントのページを画像に変換することは非常に人気のある機能です。
多くのお客様からリクエストされた変換は、PDFからDOCへの変換です。これは、PDFファイルをMicrosoft Wordドキュメントに変換することです。お客様は、PDFファイルは簡単に編集できないのに対し、Wordドキュメントは編集できるため、これを望んでいます。いくつかの企業は、ユーザーがPDFとして始まったファイルのテキスト、表、画像を操作できるようにしたいと考えています。
物事を簡単で理解しやすくするという伝統を守り続け、Aspose.PDF for Pythonでは、ソースPDFファイルを2行のコードでDOCファイルに変換できます。 この機能を実現するために、SaveFormatという列挙を導入しました。その値.DOCは、ソースファイルをMicrosoft Word形式で保存することができます。
以下のPythonコードスニペットは、PDFファイルをDOC形式に変換するプロセスを示しています。
- ソースPDFドキュメントを持つDocumentオブジェクトのインスタンスを作成します。
- Document.Save()メソッドを呼び出して、SaveFormat.Doc形式で保存します。
from asposepdf import Api
documentName = "testdata/Hello.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/out.doc"
doc.save(documentOutName, Api.SaveFormat.Doc)
DocSaveOptionsクラスの使用
DocSaveOptionsクラスは、PDFファイルをDOC形式に変換するプロセスを改善する多数のプロパティを提供します。 これらのプロパティの中で、ModeはPDFコンテンツの認識モードを指定することを可能にします。このプロパティには、RecognitionMode列挙から任意の値を指定することができます。これらの各値には特定の利点と制限があります。
from asposepdf import Api
DIR_INPUT = "testdata/"
DIR_OUTPUT = "testout/"
input_pdf = DIR_INPUT + "Hello.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.doc"
# PDFドキュメントを開く
document = Api.Document(input_pdf)
save_options = Api.DocSaveOptions()
save_options.format = Api.DocSaveOptions.DocFormat.Doc
# 認識モードをFlowとして設定
save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
# 水平近似を2.5に設定
save_options.relative_horizontal_proximity = 2.5
# 変換プロセス中に箇条書きを認識するように値を有効にする
save_options.recognize_bullets = True
# ファイルをMS Wordドキュメント形式で保存
document.save(output_pdf, save_options)
PDFをDOCにオンラインで変換してみてください
Aspose.PDF for Pythonは、オンライン無料アプリケーション“PDF to DOC”を提供しており、その機能と品質を試すことができます。
PDFをDOCXに変換
Aspose.PDF for Python APIを使用すると、Python via .NETを使ってPDFドキュメントをDOCXに読み取り、変換することができます。DOCXは、Microsoft Wordドキュメントのためのよく知られたフォーマットであり、その構造はプレーンなバイナリからXMLとバイナリファイルの組み合わせに変更されました。DocxファイルはWord 2007およびそれ以降のバージョンで開くことができますが、DOCファイル拡張子をサポートする以前のMS Wordバージョンでは開くことができません。
以下のPythonコードスニペットは、PDFファイルをDOCX形式に変換するプロセスを示しています。
-
ソースPDFドキュメントを使用してDocumentオブジェクトのインスタンスを作成します。
-
Document.Save() メソッドを呼び出して、SaveFormat.DocX 形式で保存します。
from asposepdf import Api
DIR_INPUT = "testdata/"
DIR_OUTPUT = "testout/"
input_pdf = DIR_INPUT + "Hello.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.docx"
# PDFドキュメントを開く
document = Api.Document(input_pdf)
save_options = Api.DocSaveOptions()
save_options.format = Api.DocSaveOptions.DocFormat.Docx
# 認識モードをFlowとして設定
save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
# 水平方向の近接度を2.5として設定
save_options.relative_horizontal_proximity = 2.5
# 変換プロセス中に箇条書きを認識するための値を有効にする
save_options.recognize_bullets = True
# ファイルをMS Wordドキュメント形式で保存
document.save(output_pdf, save_options)
DocSaveOptions クラスには、結果のドキュメントの形式を指定する機能を提供するFormatというプロパティがあり、DOCまたはDOCXです。 PDFファイルをDOCX形式に変換するには、DocSaveOptions.DocFormat列挙からDocx値を渡してください。
PDFをDOCXにオンラインで変換してみてください
Aspose.PDF for Pythonは、オンラインで無料のアプリケーション“PDF to Word”を提供しており、その機能と品質を試すことができます。
関連情報
この記事はこれらのトピックもカバーしています。コードは上記と同じです。
フォーマット: Word
-
Python PDFからWordへのコンバータ Format: DOC
Format: DOCX