Extraire du texte d'un PDF en utilisant Python

Extraire du texte de toutes les pages du document PDF

Extraire du texte d’un PDF n’est pas facile. Peu de lecteurs PDF peuvent extraire du texte à partir d’images PDF ou de PDF scannés. Mais l’outil Aspose.PDF pour Python via C++ vous permet d’extraire facilement du texte de tout fichier PDF.

Consultez l’extrait de code et suivez les étapes pour extraire du texte de votre PDF :

  1. Importez la bibliothèque Aspose.PDF pour Python

  2. Créez un nouvel objet extracteur, qui est utilisé pour extraire du texte et des images des documents PDF.

  3. Liez l’objet extracteur à un fichier PDF, qui est la source de l’extraction.

  4. Extrayez tout le texte du document PDF et mettez-le dans une variable.

  5. Faites n’importe quoi, imprimez le texte extrait sur la console, recherchez certains fragments, etc.

from AsposePdfPython import *

extactor = Extract()
extractor_bind_pdf(extactor,"blank_pdf_document.pdf")
text = extractor_extract_text(extactor)

print(text)