使用 pdfbox 2.0.X jar 提取文本答案

【问题标题】：Text Extraction Using pdfbox 2.0.X jars使用 pdfbox 2.0.X jar 提取文本
【发布时间】：2019-01-05 13:12:16
【问题描述】：

我有一个 pdf 文件的输入流。现在我想从 inputStream 中提取所有字符串内容。我发现了以下示例。我应该使用第一个还是第二个？这两者之间有任何性能差异吗？第二个PDFParser有什么用？

sn-p 1：

PDDocument doc = PDDocument.load(is);

PDFTextStripper stripper = new PDFTextStripper();

String result = stripper.getText(doc);

sn-p 2：

PDFTextStripper stripper = new PDFTextStripper();

PDFParser parser = new PDFParser(newRandomAccessBufferedFileInputStream(stream));

parser.parse();

doc = parser.getPDDocument();

String content = stripper.getText(doc);

提前致谢！！！

【问题讨论】：

标签： java pdfbox text-extraction

【解决方案1】：

使用第一个代码。第二个代码也可以工作，但是已经过时并且没有什么不同，解析的东西是在load() 中调用的。速度是一样的。通过使用文件作为参数或字节数组，您将获得最佳结果。使用流将需要 PDFBox 做一些额外的缓冲。您的代码没有说明stream 的来源；如果是FileInputStream，则应使用File。

【讨论】：