0. 前言
1. 要解决什么问题
- 要解决的是实时场景下的时空行为检测问题,主要问题是:
- 现有时空行为检测的工作都是offline的,不支持online。(虽然论文是2017年的,但其实到目前为止,主要工作都差不多都是offline的)
2. 用了什么方法
- 提出了一个online版的时空行为检测框架
- 输入数据是RGB图像。
- 最开始分为两个分支:RGB以及Flow。其中Flow是通过RGB得到的,有实时(光流质量较差)与非实时(光流质量较好)两个版本。
- 目标检测使用的就是普通SSD,对每张图片单独进行检测与分类。
- 之后,要融合RGB与光流的检测结果,有两种融合方法:
- Boost-fusion:没看细节
- Fusion by taking the union-set:将两个网络的检测结果合并
- online版本的 action tube 构建,这个后面单独介绍
- Online Action Tube Generation
- 问题定义:假设在时间点
t=1 ... T内,对特定行为有一组检测结果,我们要寻找时间上连续的一组检测结果(即action tubes)。 - 注意:每类行为是单独处理的。
- 对于得到的 action tube 有以下要求
- 相邻检测结果之间的iou大于一定阈值
- 每个action detection的结果只属于一个action tube。
- 在线更新tube的 temporal labels。
- 提出了一种贪心方法,关联当前帧结果以及之前的结果。
- 算法的输入每一帧的检测结果,即bbox+行为类别+scores。
- 每一个step,在满足IOU的情况下,对于每一类行为,当前最好(score最高)的bbox匹配历史最好的tube。
- 问题定义:假设在时间点
3. 效果如何
- SOTA对比
- 本算法不同配置的速度
4. 还存在什么问题&有什么可以借鉴
-
直接使用图像检测网络来执行行为识别,对于一些动作来说不靠谱。