【发布时间】:2017-10-05 15:35:43
【问题描述】:
我有许多不同格式的扫描 pdf 文件,其中包含许多不同的字段。将其视为已扫描的发票。我需要从扫描的 pdf 中提取信息并输出每个字段中的字段和文本。
我有一个 OCR 工具,可以很好地提取原始格式的所有文本。我以某种方式使用 NLP 必须能够从原始文本中提取字段及其值。由于发票的格式很多,在这种情况下不能使用 OCR。 NLP 如何帮助我解决这个问题?
【问题讨论】:
标签: machine-learning nlp
我有许多不同格式的扫描 pdf 文件,其中包含许多不同的字段。将其视为已扫描的发票。我需要从扫描的 pdf 中提取信息并输出每个字段中的字段和文本。
我有一个 OCR 工具,可以很好地提取原始格式的所有文本。我以某种方式使用 NLP 必须能够从原始文本中提取字段及其值。由于发票的格式很多,在这种情况下不能使用 OCR。 NLP 如何帮助我解决这个问题?
【问题讨论】:
标签: machine-learning nlp
大多数 NLP 工具旨在从语句中提取数据。如果你没有标点符号,它可能不会很好地工作。如果您使用的是 NLU 服务,例如https://mynlu.com,您还需要提供常用短语的示例以及其中包含的相关数据(实体)的位置。如果您可以将其拆分为语句,则 myNLU 或其他 NLU 服务(LUIS、Watson 等)可以在
【讨论】: