Text Extractor
Apakah Anda memiliki dokumen PDF yang perlu Anda ekstrak teks secara programatik? Dengan Aspose.PDF untuk .NET, Anda dapat dengan mudah mencapai tugas ini menggunakan kelas TextExtractor. Dalam artikel ini, kami akan membahas langkah-langkah dasar untuk membuat aplikasi ekstraksi teks di .NET, mencakup pembuatan objek TextExtractor, menambahkan sumber data, dan menjalankan proses ekstraksi teks.
Prasyarat
Anda akan memerlukan hal berikut:
- Visual Studio 2019 atau lebih baru
- Aspose.PDF untuk .NET 24.1 atau lebih baru
- Sebuah file PDF contoh
Selain itu, biasakan diri Anda dengan kelas TextExtractorOptions
dan fungsionalitasnya. Informasi rinci dapat ditemukan di Referensi API Aspose.PDF.
Sekarang, mari kita masuk ke dalam kode dan jelajahi cara mengekstrak teks dari dokumen PDF. Sekarang, mari kita telusuri kode dan jelajahi cara mengekstrak teks dari dokumen PDF.
Tinjauan Kode
Kode berikut menunjukkan kemampuan ekstraksi teks. Mari kita pecahkan langkah kuncinya:
1. Buat Objek TextExtractor
Kode dimulai dengan membuat instance baru dari kelas TextExtractor
. Kelas ini menyediakan metode untuk mengekstrak teks dari dokumen PDF.
using TextExtractor extractor = new();
2. Tambahkan Sumber Data
Selanjutnya, FileDataSource
dibuat untuk file PDF masukan. Ini adalah file dari mana teks akan diekstraksi.
FileDataSource fileSource = new(Path.Combine(@"C:\Samples\", "sample.pdf"));
3. Buat TextExtractorOptions
Objek TextExtractorOptions
dibuat untuk mengonfigurasi proses ekstraksi teks. Sumber file masukan ditambahkan ke opsi.
TextExtractorOptions textExtractorOptions = new();
textExtractorOptions.AddInput(fileSource);
4. Jalankan Proses Ekstraksi Teks
Metode Process
kemudian dipanggil pada objek TextExtractor
, dengan mengirimkan opsi yang telah dikonfigurasi.
Metode Process
kemudian dipanggil pada objek TextExtractor
, dengan mengirimkan opsi yang telah dikonfigurasi.
var resultContainer = extractor.Process(textExtractorOptions);
var results = resultContainer.ResultCollection;
Console.WriteLine(results[0]);
Anda dapat melihat kode lengkap di bawah ini:
using Aspose.Pdf.Plugins;
// ...
// Buat instance baru dari TextExtractor.
using TextExtractor extractor = new();
// Buat FileDataSource untuk file PDF masukan.
FileDataSource fileSource = new(Path.Combine(@"C:\Samples\", "sample.pdf"));
// Buat TextExtractorOptions.
TextExtractorOptions textExtractorOptions = new();
textExtractorOptions.AddInput(fileSource);
// Proses ekstraksi teks.
var resultContainer = extractor.Process(textExtractorOptions);
var results = resultContainer.ResultCollection;
// Cetak teks yang telah diekstrak.
Console.WriteLine(results[0]);
```