【问题标题】:Table body columns not coming properly using Google Cloud Vision API使用 Google Cloud Vision API 无法正常显示表格正文列
【发布时间】:2021-07-02 16:11:38
【问题描述】:

我使用API version v1 解析了一张 JPG 图片并得到了表格。但是,当尝试使用 Google Vision 读取表格时,输出的前 2 列组合在一起。表格截图可见here。 响应如下图->

array:146 [▼
  0 => "Ln#"
  1 => "Item"
  2 => "HSN/SAC Code"
  3 => "Hazardous"
  4 => "Qty"
  5 => "Unit Price"
  6 => "Disc."
  7 => "Tax Description"
  8 => "Sub Total"
  9 => "0 1670940-00"
  10 => "853190"
  11 => "No"
  12 => "200.00"
  13 => "IGST@18 (18.00%)"
  14 => "1,000.00"
  15 => "Hinged Cover for HCP/CCP Range (PS200)"

如上面第 9 个索引中所示,“0 1670940-00”即将合并。它们应该位于不同的索引中。

这种情况只发生在多于 1 行的行中。 Google Vision API 客户端代码如下。

$request = new AnnotateImageRequest();
$request->setImage($image);
$request->setFeature("TEXT_DETECTION");
$gcvRequest = new GoogleCloudVision([$request],  env('GOOGLE_CLOUD_KEY'));

【问题讨论】:

    标签: google-cloud-platform google-cloud-vision google-vision


    【解决方案1】:

    我使用您共享的图像进行了一些测试,发现所描述的问题已通过使用功能 "DOCUMENT_TEXT_DETECTION" 得到解决,因为它针对密集文本和文档进行了优化。

    此外,请注意,Cloud Vision 或 Document AI 等服务由机器学习模型提供支持,因为由于对输入数据质量和其他方面的敏感,这些结果有时并不完全符合预期。尽管如此,这些模型仍在不断改进,结果将随着时间的推移而不断改进。

    除此之外,我建议您在使用 Cloud Vision 时使用Google's Vision AI issue tracker 报告任何质量问题,这将允许 Google 直接参与并继续改进模型和服务。

    【讨论】:

    • 如果使用降噪工具会得到更好的效果吗?
    • 我注意到您共享的示例图像大小为 1050x214 像素,基于 this Google document 比建议的要小一些,以便充分利用 Cloud Vision 的文本检测功能。对于可以提交给 API 的大量可能的图像设置,图像预处理是一种很好的做法。事实上,尽可能多地消除噪音尤为重要。不过,请记住,Vision API 由不断改进的 ML 算法提供支持。
    • 如何按顺序获取附加图片的单词?目前,当我应用“文本检测”时,某些单词会丢失。 imgur.com/Xl96H8m这是一个PNG文件。
    • 如前所述,我的建议是使用DOCUMENT_TEXT_DETECTION 功能,它最适合您共享的具有高文本密度的图像。此外,请探索不同的管道,因为根据您的用例,您也可以从DOCUMENT AI 中受益,但它确实需要将输入预处理为 pdf、gif、tiff 或 json 格式。
    • 我正在使用 Document AI 来识别表格。问题是行数据以字符串形式出现。如果一列有空白值,则无法识别。如何识别空白单元格?
    猜你喜欢
    • 2021-02-15
    • 2018-05-14
    • 1970-01-01
    • 2018-06-10
    • 2017-07-07
    • 2019-05-25
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多