Конвертация PDF в TXT на Python

Конвертация PDF в TXT

Aspose.PDF for Python via C++ поддерживает конвертацию PDF документа в текстовый файл, следуя следующим шагам:

  1. Создание пути для входного и выходного файла
  2. Создание экземпляра фасада извлечения PDF с помощью extractor_create
  3. Привязка PDF файла к извлекателю с помощью extractor_bind_pdf
  4. Извлечение текста из PDF файла с помощью extractor_extract_text
  5. Запись извлеченного текста в выходной файл
  6. Сохранение выходного PDF с методом ‘document.save’.

Пример кода ниже показывает, как конвертировать изображение JPG в PDF с помощью Python через C++:


    import AsposePDFPython as apCore
    import os
    import os.path

    # Создание пути к каталогу данных
    dataDir = os.path.join(os.getcwd(), "samples")

    # Создание пути к входному файлу
    input_file = os.path.join(dataDir, "sample.pdf")

    # Создание пути к выходному файлу
    output_file = os.path.join(dataDir, "results", "pdf-to-txt.txt")

    # Создание экземпляра фасада извлечения PDF
    extactor = apCore.facades_pdf_extractor_create()

    # Привязка PDF файла к извлекателю
    apCore.facades_facade_bind_pdf(extactor, input_file)

    # Извлечение текста из PDF файла
    text = apCore.facades_pdf_extractor_extract_text(extactor)

    # Запись извлеченного текста в выходной файл
    with open(output_file, 'w') as f:
        f.write(text)