0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:时空行为检测
    • 作者单位:Oxford Brookes University
    • 发表时间:CVPR 2017

1. 要解决什么问题

  • 要解决的是实时场景下的时空行为检测问题,主要问题是:
    • 现有时空行为检测的工作都是offline的,不支持online。(虽然论文是2017年的,但其实到目前为止,主要工作都差不多都是offline的)

2. 用了什么方法

  • 提出了一个online版的时空行为检测框架
    • 输入数据是RGB图像。
    • 最开始分为两个分支:RGB以及Flow。其中Flow是通过RGB得到的,有实时(光流质量较差)与非实时(光流质量较好)两个版本。
    • 目标检测使用的就是普通SSD,对每张图片单独进行检测与分类。
    • 之后,要融合RGB与光流的检测结果,有两种融合方法:
      • Boost-fusion:没看细节
      • Fusion by taking the union-set:将两个网络的检测结果合并
    • online版本的 action tube 构建,这个后面单独介绍
    • 论文浏览(37) Online Real-time Multiple Spatiotemporal Action Localisation and Prediction
  • Online Action Tube Generation
    • 问题定义:假设在时间点 t=1 ... T 内,对特定行为有一组检测结果,我们要寻找时间上连续的一组检测结果(即action tubes)。
    • 注意:每类行为是单独处理的。
    • 对于得到的 action tube 有以下要求
      • 相邻检测结果之间的iou大于一定阈值
      • 每个action detection的结果只属于一个action tube。
      • 在线更新tube的 temporal labels。
    • 提出了一种贪心方法,关联当前帧结果以及之前的结果。
      • 算法的输入每一帧的检测结果,即bbox+行为类别+scores。
      • 每一个step,在满足IOU的情况下,对于每一类行为,当前最好(score最高)的bbox匹配历史最好的tube。
      • 论文浏览(37) Online Real-time Multiple Spatiotemporal Action Localisation and Prediction

3. 效果如何

  • SOTA对比
    • 论文浏览(37) Online Real-time Multiple Spatiotemporal Action Localisation and Prediction
    • 论文浏览(37) Online Real-time Multiple Spatiotemporal Action Localisation and Prediction
  • 本算法不同配置的速度
    • 论文浏览(37) Online Real-time Multiple Spatiotemporal Action Localisation and Prediction

4. 还存在什么问题&有什么可以借鉴

  • 直接使用图像检测网络来执行行为识别,对于一些动作来说不靠谱。

相关文章: