Node.jsでPDFからテーブルを抽出する
PDFをCSVファイルに変換しながらテーブルを抽出
PDFをCSVに変換
PDFにテーブルがある場合、それらは別々のCSVファイルに保存されます。PDFドキュメントを変換したい場合は、AsposePdfTablesToCSV関数を使用できます。Node.js環境でPDFファイルを変換するための以下のコードスニペットを確認してください。
CommonJS:
-
require
を呼び出してasposepdfnodejs
モジュールをAsposePdf
変数としてインポートします。 -
変換するPDFファイルの名前を指定します。
-
AsposePdf
をPromiseとして呼び出し、ファイルを変換する操作を実行します。成功した場合はオブジェクトを受け取ります。 -
関数 AsposePdfTablesToCSV を呼び出します。
-
PDFファイルを変換します。したがって、‘json.errorCode’ が0の場合、操作の結果は “ResultPDFtoXlsX.xlsx” に保存されます。json.errorCode パラメータが0でない場合、およびそれに応じてファイルにエラーが表示される場合、エラー情報は ‘json.errorText’ に含まれます。
const AsposePdf = require('asposepdfnodejs');
const pdf_file = 'Aspose.pdf';
AsposePdf().then(AsposePdfModule => {
/*テンプレート "ResultPdfTablesToCSV{0:D2}.csv" ({0}, {0:D2}, {0:D3}, ... ページ番号形式) を使用して、PDFファイルをCSVに変換(テーブルを抽出)し、TABを区切り文字として保存します*/
const json = AsposePdfModule.AsposePdfTablesToCSV(pdf_file, "ResultPdfTablesToCSV{0:D2}.csv", "\t");
console.log("AsposePdfTablesToCSV => %O", json.errorCode == 0 ? json.filesNameResult : json.errorText);
});
ECMAScript/ES6:
-
asposepdfnodejs
モジュールをインポートします。 -
変換されるPDFファイルの名前を指定します。
-
AsposePdfモジュールを初期化します。成功した場合はオブジェクトを受け取ります。
-
関数 AsposePdfTablesToCSV を呼び出します。
-
PDFファイルを変換します。このようにして、‘json.errorCode’が0の場合、操作の結果は"ResultPDFtoXlsX.xlsx"に保存されます。json.errorCodeパラメータが0でない場合、およびそれに応じてファイルにエラーが発生した場合、エラー情報は’json.errorText’に含まれます。
import AsposePdf from 'asposepdfnodejs';
const AsposePdfModule = await AsposePdf();
const pdf_file = 'Aspose.pdf';
/*PDFファイルをCSVに変換(テンプレート "ResultPdfTablesToCSV{0:D2}.csv" ({0}, {0:D2}, {0:D3}, ... ページ番号フォーマット)、区切り文字としてTABを使用し保存)*/
const json = AsposePdfModule.AsposePdfTablesToCSV(pdf_file, "ResultPdfTablesToCSV{0:D2}.csv", "\t");
console.log("AsposePdfTablesToCSV => %O", json.errorCode == 0 ? json.filesNameResult : json.errorText);