Ekstrak Teks Dari Semua Halaman Dokumen PDF di Python

Untuk mengekstrak teks dari semua halaman dokumen PDF menggunakan Aspose.PDF Java for Python, cukup panggil modul ExtractTextFromAllPages.

# Buka dokumen target
pdf=self.Document()
pdf=self.dataDir + 'input1.pdf'

text_absorber=self.TextAbsorber()

pdf.getPages().accept(text_absorber)

extracted_text=text_absorber.getText()

writer=self.FileWriter(self.File(self.dataDir + 'extracted_text.out.txt'))
writer.write(extracted_text)
writer.close()

print "Teks diekstraksi dengan sukses. Periksa file keluaran."

Unduh Kode yang Berjalan

Unduh Ekstrak Teks Dari Semua Halaman (Aspose.PDF) dari salah satu situs pengkodean sosial yang disebutkan di bawah ini:

GitHub

Menambahkan Teks ke file PDF yang ada di Python