استخراج النص من ملف PDF

في هذه المقالة، سنستعرض تفاصيل استخراج النص من ملف PDF. جميع ميزات الاستخراج هذه متاحة في مكان واحد، في فئة PdfExtractor. سنرى كيف نستخدم هذه الميزات في كودنا.

توفر فئة PdfExtractor ثلاثة أنواع من قدرات الاستخراج. هذه الفئات الثلاث هي النصوص والصور والمرفقات. من أجل إجراء الاستخراج تحت كل من هذه الفئات الثلاث، توفر PdfExtractor طرقًا متنوعة تعمل معًا لتقديم الناتج النهائي.

على سبيل المثال، لاستخراج النص يمكنك استخدام ثلاث طرق وهي ExtractText و GetText و HasNextPageText و GetNextPageText. الآن، من أجل البدء في استخراج النص، تحتاج أولاً إلى استدعاء طريقة ExtractText؛ ستقوم هذه الطريقة باستخراج النص من ملف PDF وتخزينه في الذاكرة. بعد ذلك، ستقوم طريقة GetText بأخذ هذا النص المستخرج وحفظه على القرص في موقع محدد في ملف. تساعدك HasNextPageText في التكرار عبر كل صفحة والتحقق مما إذا كانت الصفحة التالية تحتوي على أي نص أم لا. إذا كانت تحتوي على نص، فإن GetNextPageText ستساعدك في حفظ نص صفحة فردية في الملف.

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ExtractText()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf_Text();

    bool wholeText = true;
    // Create an object of the PdfExtractor class
    using (var pdfExtractor = new Aspose.Pdf.Facades.PdfExtractor())
    {
        // Bind PDF document
        pdfExtractor.BindPdf(dataDir + "sample.pdf");

        // ExtractText
        pdfExtractor.ExtractText();

        if (!wholeText)
        {
            pdfExtractor.GetText(dataDir + "sample.txt");
        }
        else
        {
            // Extract the text into separate files
            int pageNumber = 1;
            while (pdfExtractor.HasNextPageText())
            {
                pdfExtractor.GetNextPageText($"{dataDir}\\sample{pageNumber:D3}.txt");
                pageNumber++;
            }
        }
    }
}

لاستخراج وضع استخراج النص، استخدم الكود التالي:

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ExtractTextExtractonMode()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf_Text();

    bool wholeText = true;
    // Create an object of the PdfExtractor class
    using (var pdfExtractor = new Aspose.Pdf.Facades.PdfExtractor())
    {
        // Bind PDF document
        pdfExtractor.BindPdf(dataDir + "ExtractTextExtractonMode.pdf");

        // ExtractText
        // pdfExtractor.ExtractTextMode = 0; // pure mode
        pdfExtractor.ExtractTextMode = 1; // raw mode
        pdfExtractor.ExtractText();

        if (!wholeText)
        {
            pdfExtractor.GetText(dataDir + "ExtractTextExtractonMode_out.txt");
        }
        else
        {
            // Extract the text into separate files
            int pageNumber = 1;
            while (pdfExtractor.HasNextPageText())
            {
                pdfExtractor.GetNextPageText($"{dataDir}\\sample{pageNumber:D3}.txt");
                pageNumber++;
            }
        }
    }
}

استخراج الصور باستخدام PdfExtractor العثور على ما إذا كان ملف PDF يحتوي على صور أو نص