Преобразование PDF в текст на Python

Преобразование PDF в текст

Aspose.PDF for Python поддерживает преобразование всего PDF документа и отдельной страницы в текстовый файл.

Преобразование PDF документа в текстовый файл

Вы можете преобразовать PDF документ в TXT файл, используя класс ‘TextDevice’.

Создание путей к входному и выходному файлам
Создание экземпляра фасада извлечения PDF с помощью extractor_create
Привязка PDF файла к извлекателю с помощью extractor_bind_pdf
Извлечение текста из PDF-файла с использованием extractor_extract_text
Запись извлеченного текста в выходной файл
Сохранение выходного PDF с методом ‘document.save’.

Следующий фрагмент кода объясняет, как извлечь текст со всех страниц.


    from AsposePdfPython import *

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf =  DIR_OUTPUT + "convert_pdf_to_txt.txt"

    extactor = extractor_create()
    extractor_bind_pdf(extactor,input_pdf)
    text = extractor_extract_text(extactor)

    with open(output_pdf, 'w') as f:
        f.write(text)

Преобразование PDF в различные форматы изображений на Python