Node.jsでPDFからテーブルを抽出する

PDFをCSVファイルに変換しながらテーブルを抽出

PDFをCSVに変換

PDFにテーブルがある場合、それらは別々のCSVファイルに保存されます。PDFドキュメントを変換したい場合は、AsposePdfTablesToCSV関数を使用できます。Node.js環境でPDFファイルを変換するための以下のコードスニペットを確認してください。

CommonJS:

  1. requireを呼び出してasposepdfnodejsモジュールをAsposePdf変数としてインポートします。

  2. 変換するPDFファイルの名前を指定します。

  3. AsposePdfをPromiseとして呼び出し、ファイルを変換する操作を実行します。成功した場合はオブジェクトを受け取ります。

  4. 関数 AsposePdfTablesToCSV を呼び出します。

  5. PDFファイルを変換します。したがって、‘json.errorCode’ が0の場合、操作の結果は “ResultPDFtoXlsX.xlsx” に保存されます。json.errorCode パラメータが0でない場合、およびそれに応じてファイルにエラーが表示される場合、エラー情報は ‘json.errorText’ に含まれます。


  const AsposePdf = require('asposepdfnodejs');
  const pdf_file = 'Aspose.pdf';
  AsposePdf().then(AsposePdfModule => {
      /*テンプレート "ResultPdfTablesToCSV{0:D2}.csv" ({0}, {0:D2}, {0:D3}, ... ページ番号形式) を使用して、PDFファイルをCSVに変換(テーブルを抽出)し、TABを区切り文字として保存します*/
      const json = AsposePdfModule.AsposePdfTablesToCSV(pdf_file, "ResultPdfTablesToCSV{0:D2}.csv", "\t");
      console.log("AsposePdfTablesToCSV => %O", json.errorCode == 0 ? json.filesNameResult : json.errorText);
  });

ECMAScript/ES6:

  1. asposepdfnodejs モジュールをインポートします。

  2. 変換されるPDFファイルの名前を指定します。

  3. AsposePdfモジュールを初期化します。成功した場合はオブジェクトを受け取ります。

  4. 関数 AsposePdfTablesToCSV を呼び出します。

  5. PDFファイルを変換します。このようにして、‘json.errorCode’が0の場合、操作の結果は"ResultPDFtoXlsX.xlsx"に保存されます。json.errorCodeパラメータが0でない場合、およびそれに応じてファイルにエラーが発生した場合、エラー情報は’json.errorText’に含まれます。

import AsposePdf from 'asposepdfnodejs';
const AsposePdfModule = await AsposePdf();
const pdf_file = 'Aspose.pdf';
/*PDFファイルをCSVに変換(テンプレート "ResultPdfTablesToCSV{0:D2}.csv" ({0}, {0:D2}, {0:D3}, ... ページ番号フォーマット)、区切り文字としてTABを使用し保存)*/
const json = AsposePdfModule.AsposePdfTablesToCSV(pdf_file, "ResultPdfTablesToCSV{0:D2}.csv", "\t");
console.log("AsposePdfTablesToCSV => %O", json.errorCode == 0 ? json.filesNameResult : json.errorText);