表单识别器标签 - 训练模型答案

【问题标题】：Form Recognizer Labeling - Traning model表单识别器标签 - 训练模型
【发布时间】：2020-01-13 07:01:23
【问题描述】：

我正在尝试使用带有标签工具的 Azure 表单识别器来训练和提取图像中的文本。根据文档：

首先，确保所有培训文档的格式相同。如果您有多种格式的表单，请根据通用格式将它们组织到子文件夹中。训练时，您需要将 API 定向到子文件夹。 (https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/quickstarts/label-tool#set-up-input-data)

就我而言，我有不同格式的图像。我可以创建不同的项目、标记图像、训练它们并获得预期的输出。就我而言，挑战是，如果我采用这种方法，我需要创建不同的项目，分别训练并维护多个模型 ID。

所以我只是想知道有没有什么方法可以将不同的格式作为一个训练模型一起训练？基本上我想知道我们是否可以使用单个模型 ID 从不同格式的图像中提取键值对？

【问题讨论】：

标签： azure form-recognizer

【解决方案1】：

这是一些客户要求的功能。我们正在为此制定解决方案，预计将在几个月内推出。目前，我们建议您单独训练模型并维护多个模型 ID。

【讨论】：

澄清一下 - 我有一个通用的数据格式（键值对 + 表），我想摆脱大约 1000 种不同的布局/类型（不同的供应商）。现在，我们使用基于模板的提取系统，该系统使用关键字/标签（例如：公司名称、电话或支持电子邮件）来识别确切的模板。您是否认为有了这个即将推出的功能，我们可以为所有约 1000 个文档布局使用一个模型，因为底层的键/值标签很常见？还是我需要为 1000 个布局维护 1000 个模型？我担心在提交之前识别文档类型会增加使用 FR v2 的复杂性

【解决方案2】：

如果这些只是几种不同的类型（例如，2-4），并且它们很容易区分，您也可以尝试将它们全部一起训练。不过，要让它发挥作用，您需要标记更多文件，而且结果可能仍不如单独的模型。

为了尝试这样做，将每种类型的大致相同数量的图像都放在同一个文件夹中，并一起标记。

如果有许多不同的类型，这可能行不通。

【讨论】：