Extracteur de texte
Avez-vous un document PDF dont vous devez extraire le texte de manière programmatique? Avec Aspose.PDF pour .NET, vous pouvez facilement accomplir cette tâche en utilisant la classe TextExtractor. Dans cet article, nous allons parcourir les étapes de base pour créer une application d’extraction de texte en .NET, couvrant la création d’un objet TextExtractor, l’ajout d’une source de données, et l’exécution du processus d’extraction de texte.
Prérequis
Vous aurez besoin des éléments suivants :
- Visual Studio 2019 ou ultérieur
- Aspose.PDF pour .NET 24.1 ou ultérieur
- Un fichier PDF d’exemple
De plus, familiarisez-vous avec la classe TextExtractorOptions
et ses fonctionnalités. Des informations détaillées peuvent être trouvées dans la référence API Aspose.PDF.
Maintenant, plongeons dans le code et explorons comment extraire du texte d’un document PDF. Maintenant, plongeons dans le code et explorons comment extraire du texte d’un document PDF.
Exploration du Code
Le code suivant démontre les capacités d’extraction de texte. Décortiquons les étapes clés :
1. Créer un Objet TextExtractor
Le code commence par créer une nouvelle instance de la classe TextExtractor
. Cette classe fournit des méthodes pour extraire du texte des documents PDF.
using TextExtractor extractor = new();
2. Ajouter une Source de Données
Ensuite, un FileDataSource
est créé pour le fichier PDF d’entrée. C’est le fichier à partir duquel le texte sera extrait.
FileDataSource fileSource = new(Path.Combine(@"C:\Samples\", "sample.pdf"));
3. Créer TextExtractorOptions
Un objet TextExtractorOptions
est créé pour configurer le processus d’extraction de texte. La source de fichier d’entrée est ajoutée aux options.
TextExtractorOptions textExtractorOptions = new();
textExtractorOptions.AddInput(fileSource);
4. Exécuter le Processus d’Extraction de Texte
La méthode Process
est ensuite appelée sur l’objet TextExtractor
, en passant les options configurées.
La méthode Process
est ensuite appelée sur l’objet TextExtractor
, en passant les options configurées.
var resultContainer = extractor.Process(textExtractorOptions);
var results = resultContainer.ResultCollection;
Console.WriteLine(results[0]);
Vous pouvez voir le code complet ci-dessous :
using Aspose.Pdf.Plugins;
// ...
// Créez une nouvelle instance de TextExtractor.
using TextExtractor extractor = new();
// Créez un FileDataSource pour le fichier PDF d'entrée.
FileDataSource fileSource = new(Path.Combine(@"C:\Samples\", "sample.pdf"));
// Créez TextExtractorOptions.
TextExtractorOptions textExtractorOptions = new();
textExtractorOptions.AddInput(fileSource);
// Traitez l'extraction de texte.
var resultContainer = extractor.Process(textExtractorOptions);
var results = resultContainer.ResultCollection;
// Imprimez le texte extrait.
Console.WriteLine(results[0]);
```