【问题标题】:Natural Language Processing for data extraction from PDF用于从 PDF 中提取数据的自然语言处理
【发布时间】:2017-10-05 15:35:43
【问题描述】:

我有许多不同格式的扫描 pdf 文件,其中包含许多不同的字段。将其视为已扫描的发票。我需要从扫描的 pdf 中提取信息并输出每个字段中的字段和文本。

我有一个 OCR 工具,可以很好地提取原始格式的所有文本。我以某种方式使用 NLP 必须能够从原始文本中提取字段及其值。由于发票的格式很多,在这种情况下不能使用 OCR。 NLP 如何帮助我解决这个问题?

【问题讨论】:

    标签: machine-learning nlp


    【解决方案1】:

    大多数 NLP 工具旨在从语句中提取数据。如果你没有标点符号,它可能不会很好地工作。如果您使用的是 NLU 服务,例如https://mynlu.com,您还需要提供常用短语的示例以及其中包含的相关数据(实体)的位置。如果您可以将其拆分为语句,则 myNLU 或其他 NLU 服务(LUIS、Watson 等)可以在

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2015-09-30
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-07-19
      • 2013-01-21
      • 1970-01-01
      • 2016-06-25
      相关资源
      最近更新 更多