【发布时间】:2018-10-04 13:25:33
【问题描述】:
我使用 Google Cloud Vision API 进行文档文本检测,但我不知道它是否可以让我们定义一个特定的图像区域来提取文本。 例如,如果我的图像有 3 列文本,并且我想提供要执行 OCR 的特定列的左上角坐标、宽度和高度。可能吗? 当我们在图像中有 3 列文本时,还有其他方法可以防止文本混乱吗?
【问题讨论】:
我使用 Google Cloud Vision API 进行文档文本检测,但我不知道它是否可以让我们定义一个特定的图像区域来提取文本。 例如,如果我的图像有 3 列文本,并且我想提供要执行 OCR 的特定列的左上角坐标、宽度和高度。可能吗? 当我们在图像中有 3 列文本时,还有其他方法可以防止文本混乱吗?
【问题讨论】:
目前,无法定义从中提取文本的特定图像区域。在 REST 或 gRPC API 中的图像上下文中没有可用的参数。一种可能的解决方法是裁剪图像并仅发送要转录的文本。如果您想尝试自动化此过程,也许object localization 或crop hints 功能可能有用。
关于混乱的文字,您可以在Json response 中找到每个块或段落。
【讨论】:
latLongRect 字段作为请求的 ImageContext 的一部分,但是文档表明它没有被使用。所以@ch_mike 是对的,但这可能暗示未来某个时候会出现该功能。
latLongRect 参数的更多详细信息?
您可以围绕 Detector 类构建自己的包装类。然后在输入到检测方法的框架对象中重新构建位图。
【讨论】: