Конвертация PDF в TXT на Python
Contents
[
Hide
]
Конвертация PDF в TXT
Aspose.PDF for Python via C++ поддерживает конвертацию PDF документа в текстовый файл, следуя следующим шагам:
- Создание пути для входного и выходного файла
- Создание экземпляра фасада извлечения PDF с помощью extractor_create
- Привязка PDF файла к извлекателю с помощью extractor_bind_pdf
- Извлечение текста из PDF файла с помощью extractor_extract_text
- Запись извлеченного текста в выходной файл
- Сохранение выходного PDF с методом ‘document.save’.
Пример кода ниже показывает, как конвертировать изображение JPG в PDF с помощью Python через C++:
import AsposePDFPython as apCore
import os
import os.path
# Создание пути к каталогу данных
dataDir = os.path.join(os.getcwd(), "samples")
# Создание пути к входному файлу
input_file = os.path.join(dataDir, "sample.pdf")
# Создание пути к выходному файлу
output_file = os.path.join(dataDir, "results", "pdf-to-txt.txt")
# Создание экземпляра фасада извлечения PDF
extactor = apCore.facades_pdf_extractor_create()
# Привязка PDF файла к извлекателю
apCore.facades_facade_bind_pdf(extactor, input_file)
# Извлечение текста из PDF файла
text = apCore.facades_pdf_extractor_extract_text(extactor)
# Запись извлеченного текста в выходной файл
with open(output_file, 'w') as f:
f.write(text)