Convertir PDF en TXT en Python
Contents
[
Hide
]
Convertir PDF en TXT
Aspose.PDF pour Python via C++ prend en charge la conversion d’un document PDF en un fichier texte en suivant les étapes suivantes :
- Créer le chemin des fichiers d’entrée et de sortie
- Créer une instance de la façade d’extraction PDF avec extractor_create
- Lier le fichier PDF à l’extracteur avec extractor_bind_pdf
- Extraire le texte du fichier PDF en utilisant extractor_extract_text
- Écrire le texte extrait dans le fichier de sortie
- Enregistrer le PDF de sortie avec la méthode ‘document.save’.
Le snippet de code ci-dessous montre comment convertir une image JPG en PDF en utilisant Python via C++ :
import AsposePDFPython as apCore
import os
import os.path
# Création du chemin du répertoire de données
dataDir = os.path.join(os.getcwd(), "samples")
# Création du chemin du fichier d'entrée
input_file = os.path.join(dataDir, "sample.pdf")
# Création du chemin du fichier de sortie
output_file = os.path.join(dataDir, "results", "pdf-to-txt.txt")
# Création d'une instance de la façade d'extraction PDF
extactor = apCore.facades_pdf_extractor_create()
# Liaison du fichier PDF à l'extracteur
apCore.facades_facade_bind_pdf(extactor, input_file)
# Extraction du texte du fichier PDF
text = apCore.facades_pdf_extractor_extract_text(extactor)
# Écriture du texte extrait dans le fichier de sortie
with open(output_file, 'w') as f:
f.write(text)