从PDF文档的所有页面中提取文本在Ruby中

Aspose.PDF - 从所有页面中提取文本

要使用Aspose.PDF Java for Ruby从PDF文档的所有页面中提取文本，只需调用ExtractTextFromAllPages模块。

Ruby代码

# 文档目录的路径。

data_dir = File.dirname(File.dirname(File.dirname(File.dirname(__FILE__)))) + '/data/'

# 打开目标文档

pdf = Rjb::import('com.aspose.pdf.Document').new(data_dir + 'input1.pdf')

# 创建TextAbsorber对象以提取文本

text_absorber = Rjb::import('com.aspose.pdf.TextAbsorber').new

# 接受所有页面的吸收器

pdf.getPages().accept(text_absorber)

# 为了从文档的特定页面提取文本，我们需要使用其索引指定特定页面以针对accept(..)方法。

# 接受特定PDF页面的吸收器

# pdfDocument.getPages().get_Item(1).accept(textAbsorber);

# 获取提取的文本

extracted_text = text_absorber.getText()

# 创建一个写入器并打开文件

writer = Rjb::import('java.io.FileWriter').new(Rjb::import('java.io.File').new(data_dir + "extracted_text.out.txt"))

writer.write(extracted_text)

# 将一行文本写入文件

# tw.WriteLine(extractedText);

# 关闭流

writer.close()

puts "文本提取成功。检查输出文件。"

下载运行代码

从以下任意一个社交编程网站下载从所有页面提取文本 (Aspose.PDF)：

GitHub

在 Ruby 中向现有 PDF 文件添加文本