【发布时间】:2017-08-04 10:50:04
【问题描述】:
我不想用Java提取发票号码、发票日期、税额和发票价格。发票被扫描并保存为 PDF。有谁知道这个相对简单的可能性?
【问题讨论】:
-
是的,有可能:p
-
嗯……也许吧。这取决于 PDF。但是,让生成发票的程序也以另一种格式发出详细信息确实要好得多(也更简单)。
我不想用Java提取发票号码、发票日期、税额和发票价格。发票被扫描并保存为 PDF。有谁知道这个相对简单的可能性?
【问题讨论】:
这是完全可能的。根据您愿意付出多少努力,以及您的目标是什么,您至少可以做两件事:
使用 iText7 Core 从您的 pdf 文件中提取文本,然后使用正则表达式在该文本中查找内容
使用 pfd2Data(iText7 的插件)将发票(或其他 pdf 文档)与模板文档相匹配。如果匹配成功,则 pdf2Data 会生成一个 xml 文件,其中包含 pdf 中的所有数据(您在模板中指定的数据)。从 xml 数据源中提取数据应该很简单。
http://itextpdf.com/blog/pdf2data-extract-information-invoices-and-templates
【讨论】: