Преобразование PDF в текст на Python
Contents
[
Hide
]
Преобразование PDF в текст
Aspose.PDF for Python поддерживает преобразование всего PDF документа и отдельной страницы в текстовый файл.
Преобразование PDF документа в текстовый файл
Вы можете преобразовать PDF документ в TXT файл, используя класс ‘TextDevice’.
-
Создание путей к входному и выходному файлам
-
Создание экземпляра фасада извлечения PDF с помощью extractor_create
-
Привязка PDF файла к извлекателю с помощью extractor_bind_pdf
-
Извлечение текста из PDF-файла с использованием extractor_extract_text
-
Запись извлеченного текста в выходной файл
-
Сохранение выходного PDF с методом ‘document.save’.
Следующий фрагмент кода объясняет, как извлечь текст со всех страниц.
from AsposePdfPython import *
input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_txt.txt"
extactor = extractor_create()
extractor_bind_pdf(extactor,input_pdf)
text = extractor_extract_text(extactor)
with open(output_pdf, 'w') as f:
f.write(text)