Extrator de Texto

Você possui um documento PDF do qual precisa extrair texto programaticamente? Com o Aspose.PDF para .NET, você pode facilmente realizar essa tarefa usando a classe TextExtractor. Neste artigo, vamos percorrer os passos básicos para criar uma aplicação de extração de texto em .NET, cobrindo a criação de um objeto TextExtractor, adicionando uma fonte de dados e executando o processo de extração de texto.

Pré-requisitos

Você precisará do seguinte:

  • Visual Studio 2019 ou posterior
  • Aspose.PDF para .NET 24.1 ou posterior
  • Um arquivo PDF de exemplo

Além disso, familiarize-se com a classe TextExtractorOptions e suas funcionalidades. Informações detalhadas podem ser encontradas na Referência da API Aspose.PDF.

Agora, vamos mergulhar no código e explorar como extrair texto de um documento PDF. Agora, vamos mergulhar no código e explorar como extrair texto de um documento PDF.

Explicação do Código

O código a seguir demonstra as capacidades de extração de texto. Vamos detalhar as etapas principais:

1. Criar um Objeto TextExtractor

O código começa criando uma nova instância da classe TextExtractor. Esta classe fornece métodos para extrair texto de documentos PDF.

using TextExtractor extractor = new();

2. Adicionar uma Fonte de Dados

Em seguida, é criado um FileDataSource para o arquivo PDF de entrada. Este é o arquivo do qual o texto será extraído.

FileDataSource fileSource = new(Path.Combine(@"C:\Samples\", "sample.pdf"));

3. Criar TextExtractorOptions

Um objeto TextExtractorOptions é criado para configurar o processo de extração de texto. A fonte de arquivo de entrada é adicionada às opções.

TextExtractorOptions textExtractorOptions = new();
textExtractorOptions.AddInput(fileSource);

4. Executar o Processo de Extração de Texto

O método Process é então chamado no objeto TextExtractor, passando as opções configuradas. O método Process é então chamado no objeto TextExtractor, passando as opções configuradas.

var resultContainer = extractor.Process(textExtractorOptions);
var results = resultContainer.ResultCollection;
Console.WriteLine(results[0]);

Você pode ver o código completo abaixo:

using Aspose.Pdf.Plugins;
// ...

// Crie uma nova instância de TextExtractor.
using TextExtractor extractor = new();

// Crie um FileDataSource para o arquivo PDF de entrada.
FileDataSource fileSource = new(Path.Combine(@"C:\Samples\", "sample.pdf"));

// Crie TextExtractorOptions.
TextExtractorOptions textExtractorOptions = new();
textExtractorOptions.AddInput(fileSource);

// Processa a extração de texto.
var resultContainer = extractor.Process(textExtractorOptions);
var results = resultContainer.ResultCollection;

// Imprime o texto extraído.
Console.WriteLine(results[0]);

```