【发布时间】:2013-10-17 06:36:11
【问题描述】:
我有几个 pdf,其中一些代码分散在(没有固定位置)如下:
oneCode=abcd
twoCode=4566
此外,文本的字体颜色为白色(与 PDF 的背景颜色相同)。所以它们是肉眼看不见的。
我想编写一个程序来使用键(完整单词的第一部分,例如 oneCode、twoCode 等)解析 pdf 并获取相应的值(例如 abcd、4566 等)。
这样的功能在任何开源 pdf 解析器(如 PDFBox、iText 等)中都可用吗?
谁能举个例子?
感谢阅读!
【问题讨论】:
-
PDFBox 和 iText 都具有文本解析功能,但这些功能显然不是专门针对您的用例的。看看ExtractPageContent* samples here for iText 和ExtractTextByArea.java 以及使用
PDFTextStripperfor PDFBox 的其他类。