Извлечение текста из PDF в Node.js
Contents
[
Hide
]
Извлечение текста из PDF-документа
Извлечение текста из PDF-документа — это очень распространенная и полезная задача. Извлечение текста из PDF служит множеству целей, от улучшения поиска и доступности до обеспечения анализа и автоматизации данных в различных областях, таких как бизнес, исследования и управление информацией.
Если вы хотите извлечь текст из PDF-документа, вы можете использовать функцию AsposePdfExtractText. Пожалуйста, ознакомьтесь с приведенным ниже фрагментом кода, чтобы извлечь текст из PDF-файла с использованием Node.js через C++.
Проверьте фрагменты кода и следуйте шагам, чтобы извлечь текст из вашего PDF:
CommonJS:
- Вызовите
require
и импортируйте модульasposepdfnodejs
как переменнуюAsposePdf
. - Укажите имя PDF-файла, из которого будет извлечен текст.
- Вызовите
AsposePdf
как Promise и выполните операцию по извлечению текста. Получите объект, если успешно. - Вызовите функцию AsposePdfExtractText.
- Извлеченный текст сохраняется в JSON-объекте. Таким образом, если ‘json.errorCode’ равен 0, извлеченный текст отображается с помощью console.log. Если параметр json.errorCode не равен 0 и, соответственно, в вашем файле появляется ошибка, информация об ошибке будет содержаться в ‘json.errorText’.
const AsposePdf = require('asposepdfnodejs');
const pdf_file = 'Aspose.pdf';
AsposePdf().then(AsposePdfModule => {
/*Извлечение текста из PDF-файла*/
const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);
});
ECMAScript/ES6:
- Импортируйте модуль
asposepdfnodejs
. - Укажите имя PDF-файла, из которого будет извлечен текст.
- Инициализируйте модуль AsposePdf. Получите объект, если инициализация прошла успешно.
- Вызовите функцию AsposePdfExtractText.
- Извлеченный текст сохраняется в объекте JSON. Таким образом, если ‘json.errorCode’ равен 0, извлеченный текст отображается с помощью console.log. Если параметр json.errorCode не равен 0 и, соответственно, в вашем файле возникает ошибка, информация об ошибке будет содержаться в ‘json.errorText’.
import AsposePdf from 'asposepdfnodejs';
const AsposePdfModule = await AsposePdf();
const pdf_file = 'Aspose.pdf';
/*Извлечение текста из PDF-файла*/
const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);