在 Google Cloud Vision API OCR 中设置图像检测区域答案

【问题标题】：Setting image detection area in Google Cloud Vision API OCR在 Google Cloud Vision API OCR 中设置图像检测区域
【发布时间】：2018-10-04 13:25:33
【问题描述】：

我使用 Google Cloud Vision API 进行文档文本检测，但我不知道它是否可以让我们定义一个特定的图像区域来提取文本。例如，如果我的图像有 3 列文本，并且我想提供要执行 OCR 的特定列的左上角坐标、宽度和高度。可能吗？当我们在图像中有 3 列文本时，还有其他方法可以防止文本混乱吗？

【问题讨论】：

标签： ocr google-cloud-vision

【解决方案1】：

目前，无法定义从中提取文本的特定图像区域。在 REST 或 gRPC API 中的图像上下文中没有可用的参数。一种可能的解决方法是裁剪图像并仅发送要转录的文本。如果您想尝试自动化此过程，也许object localization 或crop hints 功能可能有用。

关于混乱的文字，您可以在Json response 中找到每个块或段落。

【讨论】：

实际上在 REST API 中有一个 latLongRect 字段作为请求的 ImageContext 的一部分，但是文档表明它没有被使用。所以@ch_mike 是对的，但这可能暗示未来某个时候会出现该功能。
@ch_mike 到目前为止，我一直在裁剪列并使用 imagemagick 将它们一个附加到另一个下方，并将这个垂直的一列图像发送到视觉 API，但图像处理需要大量时间。
@LefterisS 有关如何使用latLongRect 参数的更多详细信息？
@Naveed，我看到了这种方法的缺点。您可能希望使用此template 向 GCP 提出功能请求，请务必包含足够的信息，以便其他用户能够了解场景并投票，从而引起对该请求的更多关注。对于专栏问题，已经有feature request，请考虑点击问题编号旁边的星号投票。

【解决方案2】：

您可以围绕 Detector 类构建自己的包装类。然后在输入到检测方法的框架对象中重新构建位图。

【讨论】：