如何对属于 Google Cloud Vision API 中较大句子的一部分的块进行分组？答案

【问题标题】：How to group blocks that are part of a bigger sentences in Google Cloud Vision API?如何对属于 Google Cloud Vision API 中较大句子的一部分的块进行分组？
【发布时间】：2018-09-18 09:20:52
【问题描述】：

我在Python 上使用Google Cloud Vision API 来检测通常位于商店/商店上方的囤积板上的文本值。到目前为止，我已经能够检测到单个单词及其边界多边形的坐标。有没有办法根据检测到的单词的相对位置和大小对它们进行分组？

例如，商店的名称通常写成相同的大小，并且单词是对齐的。 API 是否提供了一些函数来对可能是更大句子（商店名称或地址等）的一部分的那些词进行分组？

如果 API 不提供此类功能，那么将它们分组的好方法是什么？以下是我到目前为止所做的图像示例：

Vision API 输出摘录：

description: "SHOP"
bounding_poly {
  vertices {
    x: 4713
    y: 737
  }
  vertices {
    x: 5538
    y: 737
  }
  vertices {
    x: 5538
    y: 1086
  }
  vertices {
    x: 4713
    y: 1086
  }
}
, description: "OVOns"
bounding_poly {
  vertices {
    x: 6662
    y: 1385
  }
  vertices {
    x: 6745
    y: 1385
  }
  vertices {
    x: 6745
    y: 1402
  }
  vertices {
    x: 6662
    y: 1402
  }
}

【问题讨论】：

标签： ocr google-cloud-vision

【解决方案1】：

我建议您查看使用 DOCUMENT_TEXT_DETECTION 进行 OCR 识别请求时应用的 TextAnnotation 响应格式。此响应包含有关图像元数据和文本内容值的详细信息，可用于按块、段落、单词等对文本进行分组，如公共文档中所述：

TextAnnotation 包含 OCR 提取文本的结构化表示。 OCR提取的文本结构的层次结构是这样的：TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol

此外，您可以关注这个有用的example，其中显示了如何通过处理fullTextAnnotation 响应内容来组织从收据图像中提取的文本。

【讨论】：