Extraire le texte des SuperScripts et SubScripts à partir de PDF

Extraire le texte des SuperScripts et SubScripts

L’extraction de texte à partir d’un document PDF est une chose courante. Cependant, dans ce texte, lorsqu’il est extrait, les SuperScripts et SubScripts qu’il contient, qui sont typiques des documents techniques et des articles, peuvent ne pas s’afficher. Un SubScript ou SuperScript est un caractère, un nombre ou une lettre placé en dessous ou au-dessus d’une ligne de texte régulière. Il est généralement plus petit que le reste du texte.

Les SubScripts et SuperScripts sont le plus souvent utilisés dans les formules, les expressions mathématiques et les spécifications des composés chimiques. Il est difficile de les éditer lorsqu’il peut y en avoir beaucoup dans le même passage de texte. Dans l’une des dernières versions, la bibliothèque Aspose.PDF for .NET a ajouté le support pour l’extraction du texte des SuperScripts et SubScripts à partir de PDF.

Utilisez la classe TextFragmentAbsorber et vous pouvez déjà faire tout ce que vous voulez avec le texte trouvé, c’est-à-dire que vous pouvez simplement utiliser tout le texte. Essayez le code suivant :

Le code suivant fonctionne également avec la bibliothèque Aspose.PDF.Drawing.

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ExtractSuperScriptsAndSubScripts()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();

    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "SuperScriptExample.pdf"))
    {
        // Create an absorber
        var absorber = new Aspose.Pdf.Text.TextFragmentAbsorber();
        document.Pages[1].Accept(absorber);
        using (StreamWriter writer = new StreamWriter(dataDir + "SuperScriptExample_out.txt"))
        {
            // Write the extracted text in text file
            writer.WriteLine(absorber.Text);
        }
    }
}

Ou utilisez les TextFragments séparément et faites toutes sortes de manipulations avec eux, par exemple, trier par coordonnées ou par taille.

Le code suivant fonctionne également avec la bibliothèque Aspose.PDF.Drawing.

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ExtractSuperScriptsAndSubScriptsWithTextFragments()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();

    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "SuperScriptExample.pdf"))
    {
        // Create an absorber
        var absorber = new Aspose.Pdf.Text.TextFragmentAbsorber();
        document.Pages[1].Accept(absorber);
        using (StreamWriter writer = new StreamWriter(dataDir + "SuperScriptExample_out.txt"))
        {
            foreach (var textFragment in absorber.TextFragments)
            {
                // Write the extracted text in text file
                writer.Write(textFragment.Text);
            }

        }
    }
}

Extraire un paragraphe d'un PDF C#