Ekstrak Teks dari PDF menggunakan Python
Contents
[
Hide
]
Ekstrak Teks Dari Semua Halaman Dokumen PDF
Mengekstrak teks dari PDF tidaklah mudah. Tidak banyak pembaca PDF yang dapat mengekstrak teks dari gambar PDF atau PDF yang dipindai. Namun, alat Aspose.PDF for Python via C++ memungkinkan Anda untuk dengan mudah mengekstrak teks dari semua file PDF.
Periksa cuplikan kode dan ikuti langkah-langkah untuk mengekstrak teks dari PDF Anda:
-
Impor pustaka Aspose.PDF untuk Python
-
Buat objek ekstraktor baru, yang digunakan untuk mengekstrak teks dan gambar dari dokumen PDF.
-
Hubungkan objek ekstraktor ke file PDF, yang merupakan sumber ekstraksi.
-
Ekstrak semua teks dari dokumen PDF dan masukkan ke dalam beberapa variabel.
-
Lakukan apapun, cetak teks yang diekstraksi ke konsol, cari beberapa fragmen, dll.
from AsposePdfPython import *
extactor = Extract()
extractor_bind_pdf(extactor,"blank_pdf_document.pdf")
text = extractor_extract_text(extactor)
print(text)