使用 OCR 移动视觉将图像锚定到检测到的文本答案

【问题标题】：Using OCR mobile vision to anchor image to detected text使用 OCR 移动视觉将图像锚定到检测到的文本
【发布时间】：2019-06-05 18:08:14
【问题描述】：

我正在使用 Google 的文本识别（移动视觉/ML）来检测相机供稿上的文本。一旦我检测到文本并确保它等于“HERE WE GO”，我就会使用传递的边界在检测到的文本旁边画一个心形。

我面临的问题是形状跳跃和落后。我希望它更像锚定到检测到的文本。我可以做些什么来改善它吗？

我听说过 ArCore 库，但它似乎是基于现有图像来确定锚点，但在我的情况下，它可以是任何匹配“HERE WE GO”的文本。

有什么建议吗？

【问题讨论】：

视频中物体上的文字，如海报或饮料瓶等，还是独立的文字，如字幕？
我指的是实时摄像头提要上的文字。比如说将您的摄像头对准海报

标签： android arcore firebase-mlkit android-vision

【解决方案1】：

我相信您正在尝试在相机预览上实时叠加文本。相机输入和检测之间会有小的延迟。由于 API 在输出返回时是异步的，因此您将显示另一帧。为了缓解这种情况，您可以使用一些锁/互斥锁使处理部分同步，或者覆盖另一个仅在处理完成后刷新的图像。我们这里有一些例子：https://github.com/firebase/quickstart-android/tree/master/mlkit

我还使用 DispatchGroup https://github.com/googlecodelabs/mlkit-ios/blob/master/translate/TranslateDemo/CameraViewController.swift#L245 修复了 iOS 上的类似问题

【讨论】：

嗨易卜拉欣，你能告诉我哪个例子可以缓解延迟吗？我实际上使用了文本识别项目作为我的示例，但是当您移动相机时，文本会随着检测到的边界而跳跃。我认为 AR 超级强加图像，这些图像锚定到位置并一起移动。
有什么意见吗？谢谢
是的，可以在实时显示的摄像机帧和缺少的跟踪之间进行选择；或进行同步渲染并延迟显示相机帧。
@Ibrahim，你是说这存在吗？在示例代码中，因为当我在上面的链接中运行示例代码时，检测会跳转和滞后。如果您建议一种方法，那么是否有代码示例来演示同步和渲染？例如，谷歌镜头应用程序将一个点锚定到检测到的文本上，我不知道该怎么做
嗨易卜拉欣，我奖励了你最接近的答案，但我真的很感谢根据我的上一个示例提供更多信息/示例

【解决方案2】：

选项 1： 在此处参考 tensor flow android 示例 https://github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/android

尤其是这些类： 1.对象追踪器：https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/android/src/org/tensorflow/demo/tracking/ObjectTracker.java

2.叠加 https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/android/src/org/tensorflow/demo/OverlayView.java

3.Camera Activity和Camera Fragment https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/android/src/org/tensorflow/demo/CameraActivity.java

选项 2： 示例代码可以在下面的代码实验室中找到。他们正在为条形码做类似的事情。

https://codelabs.developers.google.com/codelabs/barcodes/index.html?index=..%2F..index#0

【讨论】：

谢谢，但这似乎回答了一个不同的问题。我不是在问如何跟踪或检测。我在问如何实时锚定跟踪而不会将显示的内容滞后于 AR