Converter PDF para Excel em Python

Visão Geral

Este artigo explica como converter PDF em formatos Excel usando Python. Ele cobre os seguintes tópicos.

Formato: XLS

Formato: XLSX

Formato: Excel

Formato: CSV

Formato: ODS

Conversão de PDF para EXCEL via Python

Aspose.PDF para Python via .NET suporta o recurso de conversão de arquivos PDF para formatos Excel e CSV.

Aspose.PDF para Python via Java é um componente de manipulação de PDF, introduzimos um recurso que renderiza o arquivo PDF para uma planilha Excel (arquivos XLSX). Durante essa conversão, as páginas individuais do arquivo PDF são convertidas em planilhas Excel.

O trecho de código a seguir mostra o processo para converter um arquivo PDF em formato XLS ou XLSX com Aspose.PDF para Python via Java.

Passos: Converter PDF para XLS em Python

  1. Crie uma instância do objeto Document com o documento PDF de origem.
  2. Crie uma instância de ExcelSaveOptions.
  3. Salve no formato XLS especificando a extensão .xls chamando o método Document.Save() e passando para ele ExcelSaveOptions.



from asposepdf import Api


# init license
documentName = "testdata/license/Aspose.PDF.PythonviaJava.lic"
licenseObject = Api.License()
licenseObject.setLicense(documentName)

# conversão a partir de array de bytes
documentName = "testdata/source.pdf"
with open(documentName, "rb") as file:
    byte_array = file.read()
doc = Api.Document(byte_array)
documentOutName = "testout/result1.xls"
doc.save(documentOutName, Api.SaveFormat.Excel)

# conversão a partir de arquivo
documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result2.xls"
doc.save(documentOutName, Api.SaveFormat.Excel)


# conversão a partir de array de bytes
documentName = "testdata/source.pdf"
with open(documentName, "rb") as file:
    byte_array = file.read()
doc = Api.Document(byte_array)
documentOutName = "testout/result3.xls"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
doc.save(documentOutName, Api.SaveFormat.Excel)

# conversão a partir de arquivo
documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result4.xls"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
doc.save(documentOutName, Api.SaveFormat.Excel)

Passos: Converter PDF para XLSX em Python

  1. Crie uma instância do objeto Document com o documento PDF de origem.
  2. Crie uma instância de ExcelSaveOptions.
  3. Salve no formato XLSX especificando a extensão .xlsx chamando o método Document.Save() e passando ExcelSaveOptions.

from asposepdf import Api

documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.xlsx"
doc.save(documentOutName, save_option)

Converter PDF para XLS com controle de Coluna

Ao converter um PDF para o formato XLS, uma coluna em branco é adicionada ao arquivo de saída como a primeira coluna. O uso da opção InsertBlankColumnAtFirst na ‘classe ExcelSaveOptions’ é para controlar esta coluna. Seu valor padrão é verdadeiro.


from asposepdf import Api

documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.xlsx"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
save_option._insertBlankColumnAtFirst = True
doc.save(documentOutName, save_option)

Converter PDF para uma Única Planilha do Excel

Ao exportar um arquivo PDF com muitas páginas para XLS, cada página é exportada para uma folha diferente no arquivo Excel. Isso ocorre porque a propriedade MinimizeTheNumberOfWorksheets está definida como falso por padrão. Para garantir que todas as páginas sejam exportadas para uma única folha no arquivo Excel de saída, defina a propriedade MinimizeTheNumberOfWorksheets como verdadeira.

Passos: Converter PDF para XLS ou XLSX em Única Planilha no Python

  1. Crie uma instância do objeto Document com o documento PDF de origem.
  2. Crie uma instância de ExcelSaveOptions com MinimizeTheNumberOfWorksheets = True.
  3. Salve no formato XLS ou XLSX com uma única planilha chamando o método Document.Save() e passando ExcelSaveOptions.

from asposepdf import Api

documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.xls"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
save_option._minimizeTheNumberOfWorksheets = True
# Salve o arquivo no formato MS Excel
doc.save(documentOutName, save_option)

Converter para outros formatos de planilha

Converter para CSV

Conversão para o formato CSV é realizada da mesma forma que acima. Tudo o que você precisa - definir o formato apropriado.

Passos: Converter PDF para CSV em Python

  1. Crie uma instância do objeto Document com o documento PDF de origem.
  2. Crie uma instância de ExcelSaveOptions com Format = ExcelSaveOptions.ExcelFormat.CSV
  3. Salve no formato CSV chamando o método Document.Save()* e passando ExcelSaveOptions.

from asposepdf import Api

documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.csv"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.CSV
doc.save(documentOutName, save_option)

Converter para ODS

Passos: Converter PDF para ODS em Python

  1. Crie uma instância do objeto Document com o documento PDF de origem.
  2. Crie uma instância de ExcelSaveOptions com Format = ExcelSaveOptions.ExcelFormat.ODS
  3. Salve no formato ODS chamando o método Document.Save() e passando ExcelSaveOptions.

A conversão para o formato ODS é realizada da mesma forma que todos os outros formatos.


from asposepdf import Api

documentName = "../../testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "../../testout/result1.ods"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.ODS
doc.save(documentOutName, save_option)

Veja Também

Este artigo também cobre esses tópicos. Os códigos são os mesmos que acima.

Formato: Excel

Formato: XLS

Formato: XLSX

Formato: CSV

Formato: ODS