Extraer Texto De Todas las Páginas de un Documento PDF en Python

Para extraer texto de todas las páginas de un documento PDF usando Aspose.PDF Java para Python, simplemente invoca el módulo ExtractTextFromAllPages.

# Abre el documento objetivo
pdf=self.Document()
pdf=self.dataDir + 'input1.pdf'

text_absorber=self.TextAbsorber()

pdf.getPages().accept(text_absorber)

extracted_text=text_absorber.getText()

writer=self.FileWriter(self.File(self.dataDir + 'extracted_text.out.txt'))
writer.write(extracted_text)
writer.close()

print "Texto extraído exitosamente. Revisa el archivo de salida."

Descargar Código en Ejecución

Descarga Extraer Texto De Todas las Páginas (Aspose.PDF) desde cualquiera de los sitios de codificación social mencionados a continuación:

GitHub

Agregar texto a un archivo PDF existente en Python