テキストエクストラクター

プログラムでテキストを抽出する必要があるPDFドキュメントはありますか?Aspose.PDF for .NETを使用すると、TextExtractorクラスを使用してこのタスクを簡単に実行できます。この記事では、.NETでテキスト抽出アプリケーションを作成する基本的な手順を説明します。TextExtractorオブジェクトの作成、データソースの追加、テキスト抽出プロセスの実行をカバーします。

前提条件

以下が必要です:

  • Visual Studio 2019以降
  • Aspose.PDF for .NET 24.1以降
  • サンプルPDFファイル

さらに、TextExtractorOptionsクラスとその機能について熟知してください。詳細はAspose.PDF API Referenceで見つけることができます。

さあ、コードに飛び込んで、PDFドキュメントからテキストを抽出する方法を探りましょう。 さて、PDFドキュメントからテキストを抽出する方法についてコードを詳しく見ていきましょう。

コードウォークスルー

以下のコードは、テキスト抽出機能を示しています。主要なステップを順に見ていきましょう:

1. TextExtractorオブジェクトを作成

コードは、TextExtractorクラスの新しいインスタンスを作成することから始まります。このクラスはPDFドキュメントからテキストを抽出するメソッドを提供します。

using TextExtractor extractor = new();

2. データソースを追加

次に、入力PDFファイル用のFileDataSourceを作成します。これはテキストが抽出されるファイルです。

FileDataSource fileSource = new(Path.Combine(@"C:\Samples\", "sample.pdf"));

3. TextExtractorOptionsを作成

テキスト抽出プロセスを設定するためのTextExtractorOptionsオブジェクトを作成します。入力ファイルソースがオプションに追加されます。

TextExtractorOptions textExtractorOptions = new();
textExtractorOptions.AddInput(fileSource);

4. テキスト抽出プロセスを実行

設定されたオプションを渡して、TextExtractorオブジェクト上でProcessメソッドが呼び出されます。 Process メソッドが TextExtractor オブジェクトに呼び出され、設定されたオプションを渡します。

var resultContainer = extractor.Process(textExtractorOptions);
var results = resultContainer.ResultCollection;
Console.WriteLine(results[0]);

以下に完全なコードを示します:

using Aspose.Pdf.Plugins;
// ...

// TextExtractorの新しいインスタンスを作成します。
using TextExtractor extractor = new();

// 入力PDFファイルのためのFileDataSourceを作成します。
FileDataSource fileSource = new(Path.Combine(@"C:\Samples\", "sample.pdf"));

// TextExtractorOptionsを作成します。
TextExtractorOptions textExtractorOptions = new();
textExtractorOptions.AddInput(fileSource);

// テキスト抽出を処理します。
var resultContainer = extractor.Process(textExtractorOptions);
var results = resultContainer.ResultCollection;

// 抽出されたテキストを出力します。
Console.WriteLine(results[0]);

```