在java中从pdf中读取隐藏的内容答案

【问题标题】：Reading hidden content from a pdf in java在java中从pdf中读取隐藏的内容
【发布时间】：2013-10-17 06:36:11
【问题描述】：

我有几个 pdf，其中一些代码分散在（没有固定位置）如下：

oneCode=abcd
twoCode=4566

此外，文本的字体颜色为白色（与 PDF 的背景颜色相同）。所以它们是肉眼看不见的。

我想编写一个程序来使用键（完整单词的第一部分，例如 oneCode、twoCode 等）解析 pdf 并获取相应的值（例如 abcd、4566 等）。

这样的功能在任何开源 pdf 解析器（如 PDFBox、iText 等）中都可用吗？

谁能举个例子？

感谢阅读！

【问题讨论】：

PDFBox 和 iText 都具有文本解析功能，但这些功能显然不是专门针对您的用例的。看看ExtractPageContent* samples here for iText 和ExtractTextByArea.java 以及使用PDFTextStripper for PDFBox 的其他类。

【解决方案1】：

也许this question 会帮助你。

最高版本 2.1.7 iText 是开源的，可免费用于商业用途。请确保您需要的方法在 2.1.7 及以下版本中可用。否则，您可以从source-forge 获取最新版本。但请注意，他们的许可是模糊的，他们从 source-forge 中删除了旧版本。

【讨论】：

iText 是 AGPL：它仍然是免费的，并且肯定它仍然是开源的。您可能需要更正您的陈述。
你确定吗？因为我对商业产品做了一些研究。见itextpdf.com/pricing/desktop_license。据我所知，许可证不清楚。查看sourceforge.net/projects/itext下的cmets
iText 提供两种主要的许可模式：您可以根据 AGPL 使用它（无需购买许可，但您使用它的程序也必须是开源的，至少对其用户而言，用户以广泛的方式进行解释，有关详细信息，请查看 AGPL）或商业（购买许可证，但您的程序可能保持封闭源代码）。
iText 实际上有a dual license：要么是AGPL（而且那个是免费的），要么是商业的（收费的，这将使您摆脱AGPL 条款）。至于删除旧版本，没有理由保留它们：它们有缺陷，缺乏功能，并且可能存在法律问题（参见blog post）。