Extrair Texto de Todas as Páginas de um Documento PDF em Python

Para extrair texto de todas as páginas de um documento PDF usando Aspose.PDF Java para Python, simplesmente invoque o módulo ExtractTextFromAllPages.

# Abra o documento alvo
pdf=self.Document()
pdf=self.dataDir + 'input1.pdf'

text_absorber=self.TextAbsorber()

pdf.getPages().accept(text_absorber)

extracted_text=text_absorber.getText()

writer=self.FileWriter(self.File(self.dataDir + 'extracted_text.out.txt'))
writer.write(extracted_text)
writer.close()

print "Texto extraído com sucesso. Verifique o arquivo de saída."

Baixar Código em Execução

Baixe Extrair Texto de Todas as Páginas (Aspose.PDF) de qualquer um dos sites de codificação social mencionados abaixo:

GitHub

Adicionar Texto a um arquivo PDF existente em Python