【发布时间】:2019-03-23 09:57:19
【问题描述】:
我想询问有关建议帧视频的动作检测的问题。我使用 Temporal 3D ConvNet 对视频进行动作识别。已成功训练它,并且可以识别视频上的动作。
当我进行推理时,我只是从视频中收集 20 帧,将其提供给模型,然后它就会给我结果。关键是不同视频上的事件大小不同。其中一些覆盖了框架的 90%,但有些可能覆盖了 10%。让我们以两个物体碰撞为例,它可能发生在不同的规模上,我想检测这个动作。
如何为模型提供动作识别的准确位置,如果它可以在不同的尺度上发生在不同的对象上?想到的是使用 Yolo 来收集感兴趣的区域,并在每次 3D 卷积网络时馈送收集到的帧。但是如果有很多物体,速度会很慢。如何处理?
对于动作识别网络,有没有端到端的动作识别解决方案?
我已经看过论文和博客,人们的建议,找不到本地化问题的解决方案,因此动作识别模型得到了正确的框架。
所以只是为了总结,我们的想法是获取一个可能以任何比例发生碰撞的对象,然后将它的例如 20 帧馈送到 3D 卷积网络进行判断。
你有什么建议吗?也许有人可以解释我的方法?
【问题讨论】:
标签: machine-learning classification object-detection activity-recognition