Extraire du texte d'un PDF en utilisant Python
Contents
[
Hide
]
Extraire du texte de toutes les pages du document PDF
Extraire du texte d’un PDF n’est pas facile. Peu de lecteurs PDF peuvent extraire du texte à partir d’images PDF ou de PDF scannés. Mais l’outil Aspose.PDF pour Python via C++ vous permet d’extraire facilement du texte de tout fichier PDF.
Consultez l’extrait de code et suivez les étapes pour extraire du texte de votre PDF :
-
Importez la bibliothèque Aspose.PDF pour Python
-
Créez un nouvel objet extracteur, qui est utilisé pour extraire du texte et des images des documents PDF.
-
Liez l’objet extracteur à un fichier PDF, qui est la source de l’extraction.
-
Extrayez tout le texte du document PDF et mettez-le dans une variable.
-
Faites n’importe quoi, imprimez le texte extrait sur la console, recherchez certains fragments, etc.
from AsposePdfPython import *
extactor = Extract()
extractor_bind_pdf(extactor,"blank_pdf_document.pdf")
text = extractor_extract_text(extactor)
print(text)