使用环境的对象检测答案

【问题标题】：Object detection using environment使用环境的对象检测
【发布时间】：2019-05-20 04:31:53
【问题描述】：

我想问一个关于基于 DNN 的对象检测算法（例如 Yolo、SSD 或 R-CNN）的一般性问题。

假设我想在小图像上检测手机，因此，移动设备本身非常小，而且，仅通过查看它们出现的像素几乎不可能检测到它们。例如，查看 300x300 的图像，手机显示在 7x5 的网格上，因此只有查看 7x5 的图片，没有人可以确定那里可以看到什么。

另一方面，如果我们在图片上看到地铁车厢，其中一个人手里拿着黑色的东西，我们（人类）几乎可以肯定这个黑色的 7x5 小网格代表移动设备.

我的理解是否正确，当前最先进的 DNN 算法无法像人类那样捕捉环境，而只能通过图像上的物理外观来检测物体？如果不是，您能否建议一种算法，该算法不一定只在黑色像素组上学习，但能够捕捉到一个人手里拿着一个可能是电话的黑色物体？

谢谢。

【问题讨论】：

【解决方案1】：

我的背景不是物体检测。研究中存在这样的上下文信息。这是一个尚未解决的管道。有一些示例应用于实例分割和文本标题。

因此，我假设在提供上下文信息的对象检测方面存在研究。

无论如何，SSD 使用的是金字塔方案，其中编码了上下文信息

【讨论】：

【解决方案2】：

这可能与跟踪算法松散相关。通常，您会使用 LSTM 或其他与 CNN 相结合的算法来预测人类在时间序列图像中的行为。

我不明白为什么您不能使用电话的目标标签而不是电话的目标标签来设置数据集，以便 CNN 预测类别标签。 R-CNN 或 Yolo 不会像这样开箱即用，因此您需要自定义适合此应用程序的算法和训练集。

了解人类行为是目前深度学习的一个重要且活跃的研究课题。像这样的任务预测行为可能没有广泛分布在公共库中，因为这些可能是更多领域特定的任务，而且研究是新的，但这并不意味着它不可能。

这是一份可能与您的问题相关的主题调查报告：https://arxiv.org/pdf/1806.11230.pdf。您可能还想研究对象跟踪正在进行的研究，因为它是一个类似的概念（但涵盖的范围比仅检测某人持有的东西更广泛）。

【讨论】：