【问题标题】:How to group blocks that are part of a bigger sentences in Google Cloud Vision API?如何对属于 Google Cloud Vision API 中较大句子的一部分的块进行分组?
【发布时间】:2018-09-18 09:20:52
【问题描述】:

我在Python 上使用Google Cloud Vision API 来检测通常位于商店/商店上方的囤积板上的文本值。到目前为止,我已经能够检测到单个单词及其边界多边形的坐标。有没有办法根据检测到的单词的相对位置和大小对它们进行分组?

例如,商店的名称通常写成相同的大小,并且单词是对齐的。 API 是否提供了一些函数来对可能是更大句子(商店名称或地址等)的一部分的那些词进行分组?

如果 API 不提供此类功能,那么将它们分组的好方法是什么?以下是我到目前为止所做的图像示例:

Vision API 输出摘录:

description: "SHOP"
bounding_poly {
  vertices {
    x: 4713
    y: 737
  }
  vertices {
    x: 5538
    y: 737
  }
  vertices {
    x: 5538
    y: 1086
  }
  vertices {
    x: 4713
    y: 1086
  }
}
, description: "OVOns"
bounding_poly {
  vertices {
    x: 6662
    y: 1385
  }
  vertices {
    x: 6745
    y: 1385
  }
  vertices {
    x: 6745
    y: 1402
  }
  vertices {
    x: 6662
    y: 1402
  }
}

【问题讨论】:

    标签: ocr google-cloud-vision


    【解决方案1】:

    我建议您查看使用 DOCUMENT_TEXT_DETECTION 进行 OCR 识别请求时应用的 TextAnnotation 响应格式。此响应包含有关图像元数据和文本内容值的详细信息,可用于按块、段落、单词等对文本进行分组,如公共文档中所述:

    TextAnnotation 包含 OCR 提取文本的结构化表示。 OCR提取的文本结构的层次结构是这样的:TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol

    此外,您可以关注这个有用的example,其中显示了如何通过处理fullTextAnnotation 响应内容来组织从收据图像中提取的文本。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-11-29
      • 2019-11-20
      • 1970-01-01
      • 2019-03-13
      • 2016-08-08
      相关资源
      最近更新 更多