从PDF文档的所有页面提取文本在Python中
Contents
[
Hide
]
要使用Aspose.PDF Java for Python从PDF文档的所有页面提取文本,只需调用ExtractTextFromAllPages模块。
# 打开目标文档
pdf=self.Document()
pdf=self.dataDir + 'input1.pdf'
text_absorber=self.TextAbsorber()
pdf.getPages().accept(text_absorber)
extracted_text=text_absorber.getText()
writer=self.FileWriter(self.File(self.dataDir + 'extracted_text.out.txt'))
writer.write(extracted_text)
writer.close()
print "文本提取成功。检查输出文件。"
下载运行代码
从以下任一社交编码网站下载从所有页面提取文本 (Aspose.PDF):