【问题标题】:Extract invoice number, incoice date etc. from scanned invoice as pdf (Java) [closed]从扫描的发票中提取发票编号、发票日期等 pdf (Java) [关闭]
【发布时间】:2017-08-04 10:50:04
【问题描述】:

我不想用Java提取发票号码、发票日期、税额和发票价格。发票被扫描并保存为 PDF。有谁知道这个相对简单的可能性?

【问题讨论】:

  • 是的,有可能:p
  • 嗯……也许吧。这取决于 PDF。但是,让生成发票的程序也以另一种格式发出详细信息确实要好得多(也更简单)。

标签: java pdf ocr


【解决方案1】:

这是完全可能的。根据您愿意付出多少努力,以及您的目标是什么,您至少可以做两件事:

  • 使用 iText7 Core 从您的 pdf 文件中提取文本,然后使用正则表达式在该文本中查找内容

  • 使用 pfd2Data(iText7 的插件)将发票(或其他 pdf 文档)与模板文档相匹配。如果匹配成功,则 pdf2Data 会生成一个 xml 文件,其中包含 pdf 中的所有数据(您在模板中指定的数据)。从 xml 数据源中提取数据应该很简单。

http://developers.itextpdf.com/content/best-itext-questions-stackoverview/content-parsing-extraction-and-redaction-text/itext7-how-read-text-specific-position

http://itextpdf.com/blog/pdf2data-extract-information-invoices-and-templates

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2012-08-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-11-28
    • 2017-12-05
    • 1970-01-01
    相关资源
    最近更新 更多