【问题标题】:Azure Form Recognizer Table Not Being Properly ExtractedAzure 表单识别器表未正确提取
【发布时间】:2020-07-15 19:32:04
【问题描述】:

我正在使用https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/quickstarts/curl-train-extract 构建一个不使用标签的训练模型。

我遇到的问题是当我通过模型运行文件时(该文件用于训练模型),它没有拾取“表格”部分。我的意思是,没有“表格”节点。

据我所见,它应该能够将其构建为 JSON 的一部分,但它会将其分解为超细粒度的 OCR,例如

{
                    "key": {
                        "text": "__Tokens__34",
                        "boundingBox": null,
                        "elements": null
                    },
                    "value": {
                        "text": "2 X 3/4",
                        "boundingBox": [
                            3.1181,
                            3.7292,
                            3.5278,
                            3.7292,
                            3.5278,
                            3.8583,
                            3.1181,
                            3.8583
                        ],
                        "elements": null
                    },
                    "confidence": 1.0
                }

我是否错过了旗帜或其他东西?

提前谢谢你。

【问题讨论】:

    标签: azure form-recognizer


    【解决方案1】:

    似乎没有标签的火车无法自动检测到表格,您能否分享一张表格的图像,请删除所有 PII 信息。你也可以试试 Train with labels 或 Layout API 看看它是否能自动识别表格。

    【讨论】:

    • 我按照你的建议做了,它确实认出了这张桌子。我确信我做的事情是正确的。
    • 你能分享一张带有匿名数据的表格图像吗?表格是一个复杂的问题,并非所有表格今天都会被表单识别器自动检测到。您是否尝试标记表格的每个单元格并将其提取为键值对作为获取数据的解决方法?
    • 我想我找到了问题所在。我认为我没有使用足够多的发票“样本”来构建我的模型。它现在似乎正在工作。非常感谢!
    【解决方案2】:

    我遇到了同样的问题,但我注意到启用全文时它可以正常工作

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2020-10-03
      • 2021-07-11
      • 2021-10-20
      • 1970-01-01
      • 1970-01-01
      • 2019-08-31
      • 2017-12-21
      • 1970-01-01
      相关资源
      最近更新 更多