Преобразование PDF в текст на Python

Преобразование PDF в текст

Aspose.PDF for Python поддерживает преобразование всего PDF документа и отдельной страницы в текстовый файл.

Преобразование PDF документа в текстовый файл

Вы можете преобразовать PDF документ в TXT файл, используя класс ‘TextDevice’.

  1. Создание путей к входному и выходному файлам

  2. Создание экземпляра фасада извлечения PDF с помощью extractor_create

  3. Привязка PDF файла к извлекателю с помощью extractor_bind_pdf

  4. Извлечение текста из PDF-файла с использованием extractor_extract_text

  5. Запись извлеченного текста в выходной файл

  6. Сохранение выходного PDF с методом ‘document.save’.

Следующий фрагмент кода объясняет, как извлечь текст со всех страниц.


    from AsposePdfPython import *

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf =  DIR_OUTPUT + "convert_pdf_to_txt.txt"

    extactor = extractor_create()
    extractor_bind_pdf(extactor,input_pdf)
    text = extractor_extract_text(extactor)

    with open(output_pdf, 'w') as f:
        f.write(text)