从PDF文档的所有页面中提取文本在Ruby中

Aspose.PDF - 从所有页面中提取文本

要使用Aspose.PDF Java for Ruby从PDF文档的所有页面中提取文本,只需调用ExtractTextFromAllPages模块。

Ruby代码

# 文档目录的路径

data_dir = File.dirname(File.dirname(File.dirname(File.dirname(__FILE__)))) + '/data/'

# 打开目标文档

pdf = Rjb::import('com.aspose.pdf.Document').new(data_dir + 'input1.pdf')

# 创建TextAbsorber对象以提取文本

text_absorber = Rjb::import('com.aspose.pdf.TextAbsorber').new

# 接受所有页面的吸收器

pdf.getPages().accept(text_absorber)

# 为了从文档的特定页面提取文本我们需要使用其索引指定特定页面以针对accept(..)方法

# 接受特定PDF页面的吸收器

# pdfDocument.getPages().get_Item(1).accept(textAbsorber);

# 获取提取的文本

extracted_text = text_absorber.getText()

# 创建一个写入器并打开文件

writer = Rjb::import('java.io.FileWriter').new(Rjb::import('java.io.File').new(data_dir + "extracted_text.out.txt"))

writer.write(extracted_text)

# 将一行文本写入文件

# tw.WriteLine(extractedText);

# 关闭流

writer.close()

puts "文本提取成功。检查输出文件。"

下载运行代码

从以下任意一个社交编程网站下载从所有页面提取文本 (Aspose.PDF)