Analyzing your prompt, please hold on...
An error occurred while retrieving the results. Please refresh the page and try again.
في هذه المقالة، سنستعرض تفاصيل استخراج النص من ملف PDF. جميع ميزات الاستخراج هذه متاحة في مكان واحد، في فئة PdfExtractor. سنرى كيف نستخدم هذه الميزات في كودنا.
توفر فئة PdfExtractor ثلاثة أنواع من قدرات الاستخراج. هذه الفئات الثلاث هي النصوص والصور والمرفقات. من أجل إجراء الاستخراج تحت كل من هذه الفئات الثلاث، توفر PdfExtractor طرقًا متنوعة تعمل معًا لتقديم الناتج النهائي.
على سبيل المثال، لاستخراج النص يمكنك استخدام ثلاث طرق وهي ExtractText و GetText و HasNextPageText و GetNextPageText. الآن، من أجل البدء في استخراج النص، تحتاج أولاً إلى استدعاء طريقة ExtractText؛ ستقوم هذه الطريقة باستخراج النص من ملف PDF وتخزينه في الذاكرة. بعد ذلك، ستقوم طريقة GetText بأخذ هذا النص المستخرج وحفظه على القرص في موقع محدد في ملف. تساعدك HasNextPageText في التكرار عبر كل صفحة والتحقق مما إذا كانت الصفحة التالية تحتوي على أي نص أم لا. إذا كانت تحتوي على نص، فإن GetNextPageText ستساعدك في حفظ نص صفحة فردية في الملف.
// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ExtractText()
{
// The path to the documents directory
var dataDir = RunExamples.GetDataDir_AsposePdf_Text();
bool wholeText = true;
// Create an object of the PdfExtractor class
using (var pdfExtractor = new Aspose.Pdf.Facades.PdfExtractor())
{
// Bind PDF document
pdfExtractor.BindPdf(dataDir + "sample.pdf");
// ExtractText
pdfExtractor.ExtractText();
if (!wholeText)
{
pdfExtractor.GetText(dataDir + "sample.txt");
}
else
{
// Extract the text into separate files
int pageNumber = 1;
while (pdfExtractor.HasNextPageText())
{
pdfExtractor.GetNextPageText($"{dataDir}\\sample{pageNumber:D3}.txt");
pageNumber++;
}
}
}
}
لاستخراج وضع استخراج النص، استخدم الكود التالي:
// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ExtractTextExtractonMode()
{
// The path to the documents directory
var dataDir = RunExamples.GetDataDir_AsposePdf_Text();
bool wholeText = true;
// Create an object of the PdfExtractor class
using (var pdfExtractor = new Aspose.Pdf.Facades.PdfExtractor())
{
// Bind PDF document
pdfExtractor.BindPdf(dataDir + "ExtractTextExtractonMode.pdf");
// ExtractText
// pdfExtractor.ExtractTextMode = 0; // pure mode
pdfExtractor.ExtractTextMode = 1; // raw mode
pdfExtractor.ExtractText();
if (!wholeText)
{
pdfExtractor.GetText(dataDir + "ExtractTextExtractonMode_out.txt");
}
else
{
// Extract the text into separate files
int pageNumber = 1;
while (pdfExtractor.HasNextPageText())
{
pdfExtractor.GetNextPageText($"{dataDir}\\sample{pageNumber:D3}.txt");
pageNumber++;
}
}
}
}
Analyzing your prompt, please hold on...
An error occurred while retrieving the results. Please refresh the page and try again.