PythonでPDFドキュメントのすべてのページからテキストを抽出する
Contents
[
Hide
]
Aspose.PDF Java for Pythonを使用してPDFドキュメントのすべてのページからテキストを抽出するには、ExtractTextFromAllPagesモジュールを呼び出します。
# 目的のドキュメントを開く
pdf=self.Document()
pdf=self.dataDir + 'input1.pdf'
text_absorber=self.TextAbsorber()
pdf.getPages().accept(text_absorber)
extracted_text=text_absorber.getText()
writer=self.FileWriter(self.File(self.dataDir + 'extracted_text.out.txt'))
writer.write(extracted_text)
writer.close()
print "テキストが正常に抽出されました。出力ファイルを確認してください。"
実行コードのダウンロード
以下のいずれかのソーシャルコーディングサイトから**Extract Text From All the Pages (Aspose.PDF)**をダウンロードできます。