使用 Google Cloud Vision API 无法正常显示表格正文列答案

【问题标题】：Table body columns not coming properly using Google Cloud Vision API使用 Google Cloud Vision API 无法正常显示表格正文列
【发布时间】：2021-07-02 16:11:38
【问题描述】：

我使用API version v1 解析了一张 JPG 图片并得到了表格。但是，当尝试使用 Google Vision 读取表格时，输出的前 2 列组合在一起。表格截图可见here。响应如下图->

array:146 [▼
  0 => "Ln#"
  1 => "Item"
  2 => "HSN/SAC Code"
  3 => "Hazardous"
  4 => "Qty"
  5 => "Unit Price"
  6 => "Disc."
  7 => "Tax Description"
  8 => "Sub Total"
  9 => "0 1670940-00"
  10 => "853190"
  11 => "No"
  12 => "200.00"
  13 => "IGST@18 (18.00%)"
  14 => "1,000.00"
  15 => "Hinged Cover for HCP/CCP Range (PS200)"

如上面第 9 个索引中所示，“0 1670940-00”即将合并。它们应该位于不同的索引中。

这种情况只发生在多于 1 行的行中。 Google Vision API 客户端代码如下。

$request = new AnnotateImageRequest();
$request->setImage($image);
$request->setFeature("TEXT_DETECTION");
$gcvRequest = new GoogleCloudVision([$request],  env('GOOGLE_CLOUD_KEY'));

【问题讨论】：

标签： google-cloud-platform google-cloud-vision google-vision

【解决方案1】：

我使用您共享的图像进行了一些测试，发现所描述的问题已通过使用功能 "DOCUMENT_TEXT_DETECTION" 得到解决，因为它针对密集文本和文档进行了优化。

此外，请注意，Cloud Vision 或 Document AI 等服务由机器学习模型提供支持，因为由于对输入数据质量和其他方面的敏感，这些结果有时并不完全符合预期。尽管如此，这些模型仍在不断改进，结果将随着时间的推移而不断改进。

除此之外，我建议您在使用 Cloud Vision 时使用Google's Vision AI issue tracker 报告任何质量问题，这将允许 Google 直接参与并继续改进模型和服务。

【讨论】：

如果使用降噪工具会得到更好的效果吗？
我注意到您共享的示例图像大小为 1050x214 像素，基于 this Google document 比建议的要小一些，以便充分利用 Cloud Vision 的文本检测功能。对于可以提交给 API 的大量可能的图像设置，图像预处理是一种很好的做法。事实上，尽可能多地消除噪音尤为重要。不过，请记住，Vision API 由不断改进的 ML 算法提供支持。
如何按顺序获取附加图片的单词？目前，当我应用“文本检测”时，某些单词会丢失。 imgur.com/Xl96H8m这是一个PNG文件。
如前所述，我的建议是使用DOCUMENT_TEXT_DETECTION 功能，它最适合您共享的具有高文本密度的图像。此外，请探索不同的管道，因为根据您的用例，您也可以从DOCUMENT AI 中受益，但它确实需要将输入预处理为 pdf、gif、tiff 或 json 格式。
我正在使用 Document AI 来识别表格。问题是行数据以字符串形式出现。如果一列有空白值，则无法识别。如何识别空白单元格？