PDFファイルからリンクを抽出する

PDFファイルからリンクを抽出する

リンクはPDFファイル内で注釈として表現されるため、リンクを抽出するには、すべてのLinkAnnotationオブジェクトを抽出します。

  1. Documentオブジェクトを作成します。

  2. リンクを抽出したいPageを取得します。

  3. AnnotationSelectorクラスを使用して、指定されたページからすべてのLinkAnnotationオブジェクトを抽出します。

  4. AnnotationSelector オブジェクトを Page オブジェクトの Accept メソッドに渡します。

  5. AnnotationSelector オブジェクトの getSelected メソッドを使用して、選択されたすべてのリンク注釈を IList オブジェクトに取得します。

次のコードスニペットは、PDF ファイルからリンクを抽出する方法を示しています。

    public static void ExtractLinksFromThePDFFile() {        
        // PDFファイルを読み込む
        Document document = new Document(_dataDir + "UpdateLinks.pdf");
        Page page = document.getPages().get_Item(1);
           
        AnnotationSelector selector = new AnnotationSelector(new LinkAnnotation(page, Rectangle.getTrivial()));
        page.accept(selector);
        java.util.List<Annotation> list = selector.getSelected();
        for(Annotation annot : list)
        {
            System.out.println("注釈の位置: " + annot.getRect());
        }
                
        // 更新されたリンクを持つ文書を保存する
        //document.save(_dataDir + "ExtractLinks_out.pdf");
    }