Extraction de texte brut à partir d'un fichier PDF

Extraire le texte de toutes les pages d’un document PDF

L’extraction de texte d’un document PDF est une exigence courante. Dans cet exemple, vous verrez comment Aspose.PDF pour PHP permet d’extraire du texte de toutes les pages d’un document PDF. Pour extraire du texte de toutes les pages PDF :

Créez un objet de la classe TextAbsorber.
Ouvrez le PDF en utilisant la classe Document et appelez la méthode Accept de la collection Pages.
La classe TextAbsorber absorbe le texte du document et le renvoie dans la méthode getText().

Le code suivant vous montre comment extraire le texte de toutes les pages du document PDF.


    // Créez un nouvel objet Document à partir du fichier PDF d'entrée.
    $document = new Document($inputFile);

    // Créez un nouvel objet TextAbsorber pour extraire le texte du document.
    $textAbsorber = new TextAbsorber();

    // Extraire le texte du document.
    $textAbsorber->visit($document);

    // Obtenez le contenu du texte extrait.
    $content = $textAbsorber->getText();

    // Enregistrez le texte extrait dans le fichier de sortie.
    file_put_contents($outputFile, $content);

Extraire un paragraphe d'un PDF