【问题标题】:Setting image detection area in Google Cloud Vision API OCR在 Google Cloud Vision API OCR 中设置图像检测区域
【发布时间】:2018-10-04 13:25:33
【问题描述】:

我使用 Google Cloud Vision API 进行文档文本检测,但我不知道它是否可以让我们定义一个特定的图像区域来提取文本。 例如,如果我的图像有 3 列文本,并且我想提供要执行 OCR 的特定列的左上角坐标、宽度和高度。可能吗? 当我们在图像中有 3 列文本时,还有其他方法可以防止文本混乱吗?

【问题讨论】:

    标签: ocr google-cloud-vision


    【解决方案1】:

    目前,无法定义从中提取文本的特定图像区域。在 RESTgRPC API 中的图像上下文中没有可用的参数。一种可能的解决方法是裁剪图像并仅发送要转录的文本。如果您想尝试自动化此过程,也许object localizationcrop hints 功能可能有用。

    关于混乱的文字,您可以在Json response 中找到每个块或段落。

    【讨论】:

    • 实际上在 REST API 中有一个 latLongRect 字段作为请求的 ImageContext 的一部分,但是文档表明它没有被使用。所以@ch_mike 是对的,但这可能暗示未来某个时候会出现该功能。
    • @ch_mike 到目前为止,我一直在裁剪列并使用 imagemagick 将它们一个附加到另一个下方,并将这个垂直的一列图像发送到视觉 API,但图像处理需要大量时间。
    • @LefterisS 有关如何使用latLongRect 参数的更多详细信息?
    • @Naveed,我看到了这种方法的缺点。您可能希望使用此template 向 GCP 提出功能请求,请务必包含足够的信息,以便其他用户能够了解场景并投票,从而引起对该请求的更多关注。对于专栏问题,已经有feature request,请考虑点击问题编号旁边的星号投票。
    【解决方案2】:

    您可以围绕 Detector 类构建自己的包装类。然后在输入到检测方法的框架对象中重新构建位图。

    【讨论】:

      猜你喜欢
      • 2023-03-02
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-10-20
      • 2016-05-31
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多