PDFをTXTに変換するPython

PDFをTXTに変換する

Aspose.PDF for Python via C++は、次のステップに従ってPDFドキュメントをテキストファイルに変換することをサポートします:

  1. 入力ファイルと出力ファイルのパスを作成する
  2. extractor_createを使用して、PDFエクストラクターファサードのインスタンスを作成する
  3. extractor_bind_pdfを使用して、PDFファイルをエクストラクターにバインドする
  4. extractor_extract_textを使用して、PDFファイルからテキストを抽出する
  5. 抽出したテキストを出力ファイルに書き込む
  6. ‘document.save’ メソッドで出力PDFを保存する

以下のコードスニペットは、Pythonを介してC++でJPG画像をPDFに変換する方法を示しています:


    import AsposePDFPython as apCore
    import os
    import os.path

    # データディレクトリパスを作成
    dataDir = os.path.join(os.getcwd(), "samples")

    # 入力ファイルパスを作成
    input_file = os.path.join(dataDir, "sample.pdf")

    # 出力ファイルパスを作成
    output_file = os.path.join(dataDir, "results", "pdf-to-txt.txt")

    # PDF抽出ファサードのインスタンスを作成
    extactor = apCore.facades_pdf_extractor_create()

    # PDFファイルを抽出器にバインド
    apCore.facades_facade_bind_pdf(extactor, input_file)

    # PDFファイルからテキストを抽出
    text = apCore.facades_pdf_extractor_extract_text(extactor)

    # 抽出したテキストを出力ファイルに書き込み
    with open(output_file, 'w') as f:
        f.write(text)