将 PDF 转换为 TXT 在 Python 中
Contents
[
Hide
]
将 PDF 转换为 TXT
Aspose.PDF for Python via C++ 支持通过以下步骤将 PDF 文档转换为文本文件:
- 创建输入和输出文件路径
- 使用 extractor_create 创建 PDF 提取器外观的实例
- 使用 extractor_bind_pdf 将 PDF 文件绑定到提取器
- 使用 extractor_extract_text 从 PDF 文件中提取文本
- 将提取的文本写入输出文件
- 使用 ‘document.save’ 方法保存输出 PDF。
下面的代码片段展示了如何使用 Python via C++ 将 JPG 图像转换为 PDF:
import AsposePDFPython as apCore
import os
import os.path
# 创建数据目录路径
dataDir = os.path.join(os.getcwd(), "samples")
# 创建输入文件路径
input_file = os.path.join(dataDir, "sample.pdf")
# 创建输出文件路径
output_file = os.path.join(dataDir, "results", "pdf-to-txt.txt")
# 创建PDF提取器外观的实例
extactor = apCore.facades_pdf_extractor_create()
# 绑定PDF文件到提取器
apCore.facades_facade_bind_pdf(extactor, input_file)
# 从PDF文件中提取文本
text = apCore.facades_pdf_extractor_extract_text(extactor)
# 将提取的文本写入输出文件
with open(output_file, 'w') as f:
f.write(text)