从 PDF 文档中提取图表对象(外观)

从 PDF 文档中提取图表对象(外观)

PDF 允许将页面内容分组为名为 标记内容 的元素。Adobe Acrobat 将它们显示为“容器”。图表对象放置在这样的对象中。我们在 PdfExtractor 类中引入了一个新方法 extractMarkedContentAsImages() 来提取这些对象。此方法将每个 标记内容 渲染为单独的图像。请注意,并不是所有的图表都完全放置在一个容器中。因此,一些图表将被部分保存为单独的图像。

请注意,将内容正确分组到容器是 PDF 文档设计者的责任。 如果您希望获取包含标题或其他对象的图表,您应该编辑/创建将整个图表放置在一个容器中的PDF文档。


//打开文档

Document document = new Document("sample.pdf");

//实例化 PdfExtractor

PdfExtractor pdfExtractor = new PdfExtractor();

//将图表对象提取为图像到文件夹中

pdfExtractor.extractMarkedContentAsImages(document.getPages().get_Item(1), "C:/Temp/Charts_page_1");

document.close();