Конвертация PDF в Excel на JavaScript

Создание электронных таблиц из PDF с использованием JavaScript

Aspose.PDF для JavaScript поддерживает функцию конвертации PDF-файлов в форматы Excel и CSV.

Процесс конвертации зависит от количества страниц в документе и может быть очень трудоемким. Поэтому мы настоятельно рекомендуем использовать Web Workers.

Этот код демонстрирует способ переноса ресурсоемких задач по конвертации PDF-файлов в веб-воркер, чтобы предотвратить блокировку основного потока пользовательского интерфейса. Он также предлагает удобный способ загрузки преобразованного файла.

Конвертация PDF в XLSX


  /*Создать Web Worker*/
    const AsposePDFWebWorker = new Worker("AsposePDFforJS.js");
    AsposePDFWebWorker.onerror = evt => console.log(`Ошибка от Web Worker: ${evt.message}`);
    AsposePDFWebWorker.onmessage = evt => document.getElementById('output').textContent = 
      (evt.data == 'ready') ? 'загружено!' :
        (evt.data.json.errorCode == 0) ? `Результат:\n${DownloadFile(evt.data.json.fileNameResult, "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet", evt.data.params[0])}` : `Ошибка: ${evt.data.json.errorText}`;

    /*Обработчик события*/
    const ffileToXlsX = e => {
      const file_reader = new FileReader();
      file_reader.onload = event => {
        /*конвертировать PDF-файл в XlsX и сохранить как "ResultPDFtoXlsX.xlsx" - спросить у Web Worker*/
        AsposePDFWebWorker.postMessage({ "operation": 'AsposePdfToXlsX', "params": [event.target.result, e.target.files[0].name, "ResultPDFtoXlsX.xlsx"] }, [event.target.result]);
      };
      file_reader.readAsArrayBuffer(e.target.files[0]);
    };
  /// [Фрагмент кода]

    /*создать ссылку для загрузки результирующего файла*/
    const DownloadFile = (filename, mime, content) => {
        mime = mime || "application/octet-stream";
        var link = document.createElement("a"); 
        link.href = URL.createObjectURL(new Blob([content], {type: mime}));
        link.download = filename;
        link.innerHTML = "Нажмите здесь, чтобы скачать файл " + filename;
        document.body.appendChild(link); 
        document.body.appendChild(document.createElement("br"));
        return filename;
      }

Следующий пример кода на JavaScript демонстрирует простой пример преобразования страниц PDF в файлы XlsX:

  1. Выберите PDF файл для конвертации.
  2. Создайте ‘FileReader’.
  3. Выполняется функция AsposePdfToXlsX.
  4. Устанавливается имя результирующего файла, в этом примере “ResultPDFtoXlsX.xlsx”.
  5. Далее, если ‘json.errorCode’ равно 0, то вашему результирующему файлу присваивается имя, которое вы указали ранее. Если параметр ‘json.errorCode’ не равен 0 и, соответственно, в вашем файле будет ошибка, то информация о такой ошибке будет содержаться в файле ‘json.errorText’.
  6. В результате функция DownloadFile генерирует ссылку и позволяет загрузить результирующий файл на операционную систему пользователя.

  var ffileToXlsX = function (e) {
    const file_reader = new FileReader();
    file_reader.onload = (event) => {
      /*преобразовать PDF-файл в XlsX и сохранить как "ResultPDFtoXlsX.xlsx"*/
      const json = AsposePdfToXlsX(event.target.result, e.target.files[0].name, "ResultPDFtoXlsX.xlsx");
      if (json.errorCode == 0) document.getElementById('output').textContent = json.fileNameResult;
      else document.getElementById('output').textContent = json.errorText;
      /*создать ссылку для скачивания результирующего файла*/
      DownloadFile(json.fileNameResult, "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet");
    }
    file_reader.readAsArrayBuffer(e.target.files[0]);
  }

Преобразование PDF в CSV


    /*Создать Web Worker*/
    const AsposePDFWebWorker = new Worker("AsposePDFforJS.js");
    AsposePDFWebWorker.onerror = evt => console.log(`Ошибка от Web Worker: ${evt.message}`);
    AsposePDFWebWorker.onmessage = evt => document.getElementById('output').textContent = 
      (evt.data == 'ready') ? 'загружено!' :
        (evt.data.json.errorCode == 0) ? 
          `Количество файлов (таблиц): ${evt.data.json.filesCount.toString()}\n${evt.data.params.forEach(
            (element, index) => DownloadFile(evt.data.json.filesNameResult[index], "text/csv", element) ) ?? ""}` : 
          `Ошибка: ${evt.data.json.errorText}`;

    /*Обработчик события*/
    const ffileToCSV = e => {
      const file_reader = new FileReader();
      file_reader.onload = event => {
        /*Преобразовать PDF-файл в CSV (извлечь таблицы) с шаблоном "ResultPdfTablesToCSV{0:D2}.csv" ({0}, {0:D2}, {0:D3}, ... формат номера страницы), TAB в качестве разделителя и сохранить - Запрос к Web Worker*/
        AsposePDFWebWorker.postMessage({ "operation": 'AsposePdfTablesToCSV', "params": [event.target.result, e.target.files[0].name, "ResultPdfTablesToCSV{0:D2}.csv", "\t"] }, [event.target.result]);
      };
      file_reader.readAsArrayBuffer(e.target.files[0]);
    };

    /*Создать ссылку для скачивания результирующего файла*/
    const DownloadFile = (filename, mime, content) => {
        mime = mime || "application/octet-stream";
        var link = document.createElement("a"); 
        link.href = URL.createObjectURL(new Blob([content], {type: mime}));
        link.download = filename;
        link.innerHTML = "Нажмите здесь, чтобы скачать файл " + filename;
        document.body.appendChild(link); 
        document.body.appendChild(document.createElement("br"));
        return filename;
      }

Следующий фрагмент кода JavaScript показывает простой пример преобразования PDF в CSV:

  1. Выберите PDF файл для конвертации.
  2. Создайте ‘FileReader’.
  3. Выполняется функция AsposePdfTablesToCSV.
  4. Устанавливается имя результирующего файла, в этом примере “ResultPdfTablesToCSV{0:D2}.csv”.
  5. Далее, если ‘json.errorCode’ равен 0, то вашему результирующему файлу присваивается ранее указанное имя. Если параметр ‘json.errorCode’ не равен 0 и, соответственно, в вашем файле будет ошибка, то информация о такой ошибке будет содержаться в файле ‘json.errorText’.
  6. В результате функция DownloadFile генерирует ссылку и позволяет загрузить результирующий файл в операционную систему пользователя.

  var ffileToCSV = function (e) {
      const file_reader = new FileReader();
      file_reader.onload = (event) => {
        /*Преобразовать PDF-файл в CSV (извлечь таблицы) с шаблоном "ResultPdfTablesToCSV{0:D2}.csv" ({0}, {0:D2}, {0:D3}, ... формат номера страницы), TAB в качестве разделителя*/
        const json = AsposePdfTablesToCSV(event.target.result, e.target.files[0].name, "ResultPdfTablesToCSV{0:D2}.csv", "\t");
        if (json.errorCode == 0) {
          document.getElementById('output').textContent = "Количество файлов (таблиц): " + json.filesCount.toString();
          /*Создать ссылки на результирующие файлы*/
          for (let fileIndex = 0; fileIndex < json.filesCount; fileIndex++) DownloadFile(json.filesNameResult[fileIndex], "text/csv");
        }
        else document.getElementById('output').textContent = json.errorText;
      };
      file_reader.readAsArrayBuffer(e.target.files[0]);
    };