用于从 PDF 中提取数据的自然语言处理答案

【问题标题】：Natural Language Processing for data extraction from PDF用于从 PDF 中提取数据的自然语言处理
【发布时间】：2017-10-05 15:35:43
【问题描述】：

我有许多不同格式的扫描 pdf 文件，其中包含许多不同的字段。将其视为已扫描的发票。我需要从扫描的 pdf 中提取信息并输出每个字段中的字段和文本。

我有一个 OCR 工具，可以很好地提取原始格式的所有文本。我以某种方式使用 NLP 必须能够从原始文本中提取字段及其值。由于发票的格式很多，在这种情况下不能使用 OCR。 NLP 如何帮助我解决这个问题？

【问题讨论】：

标签： machine-learning nlp

【解决方案1】：

大多数 NLP 工具旨在从语句中提取数据。如果你没有标点符号，它可能不会很好地工作。如果您使用的是 NLU 服务，例如https://mynlu.com，您还需要提供常用短语的示例以及其中包含的相关数据（实体）的位置。如果您可以将其拆分为语句，则 myNLU 或其他 NLU 服务（LUIS、Watson 等）可以在

【讨论】：