Convertir PDF en TXT en Python

Convertir PDF en TXT

Aspose.PDF pour Python via C++ prend en charge la conversion d’un document PDF en un fichier texte en suivant les étapes suivantes :

  1. Créer le chemin des fichiers d’entrée et de sortie
  2. Créer une instance de la façade d’extraction PDF avec extractor_create
  3. Lier le fichier PDF à l’extracteur avec extractor_bind_pdf
  4. Extraire le texte du fichier PDF en utilisant extractor_extract_text
  5. Écrire le texte extrait dans le fichier de sortie
  6. Enregistrer le PDF de sortie avec la méthode ‘document.save’.

Le snippet de code ci-dessous montre comment convertir une image JPG en PDF en utilisant Python via C++ :


    import AsposePDFPython as apCore
    import os
    import os.path

    # Création du chemin du répertoire de données
    dataDir = os.path.join(os.getcwd(), "samples")

    # Création du chemin du fichier d'entrée
    input_file = os.path.join(dataDir, "sample.pdf")

    # Création du chemin du fichier de sortie
    output_file = os.path.join(dataDir, "results", "pdf-to-txt.txt")

    # Création d'une instance de la façade d'extraction PDF
    extactor = apCore.facades_pdf_extractor_create()

    # Liaison du fichier PDF à l'extracteur
    apCore.facades_facade_bind_pdf(extactor, input_file)

    # Extraction du texte du fichier PDF
    text = apCore.facades_pdf_extractor_extract_text(extactor)

    # Écriture du texte extrait dans le fichier de sortie
    with open(output_file, 'w') as f:
        f.write(text)