【问题标题】:Text Extraction Using pdfbox 2.0.X jars使用 pdfbox 2.0.X jar 提取文本
【发布时间】:2019-01-05 13:12:16
【问题描述】:

我有一个 pdf 文件的输入流。现在我想从 inputStream 中提取所有字符串内容。我发现了以下示例。我应该使用第一个还是第二个?这两者之间有任何性能差异吗? 第二个PDFParser有什么用?

sn-p 1:

PDDocument doc = PDDocument.load(is);

PDFTextStripper stripper = new PDFTextStripper();

String result = stripper.getText(doc);

sn-p 2:

PDFTextStripper stripper = new PDFTextStripper();

PDFParser parser = new PDFParser(newRandomAccessBufferedFileInputStream(stream));

parser.parse();

doc = parser.getPDDocument();

String content = stripper.getText(doc);

提前致谢!!!

【问题讨论】:

    标签: java pdfbox text-extraction


    【解决方案1】:

    使用第一个代码。第二个代码也可以工作,但是已经过时并且没有什么不同,解析的东西是在load() 中调用的。速度是一样的。通过使用文件作为参数或字节数组,您将获得最佳结果。使用流将需要 PDFBox 做一些额外的缓冲。您的代码没有说明stream 的来源;如果是FileInputStream,则应使用File

    【讨论】:

      猜你喜欢
      • 2012-12-30
      • 1970-01-01
      • 1970-01-01
      • 2014-01-02
      • 1970-01-01
      • 2015-11-19
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多