论文浏览(37) Online Real-time Multiple Spatiotemporal Action Localisation and Prediction

文章目录

0. 前言
1. 要解决什么问题
2. 用了什么方法
3. 效果如何
4. 还存在什么问题&有什么可以借鉴

0. 前言

相关资料：
- arxiv
- github
- 论文解读
论文基本信息
- 领域：时空行为检测
- 作者单位：Oxford Brookes University
- 发表时间：CVPR 2017

1. 要解决什么问题

要解决的是实时场景下的时空行为检测问题，主要问题是：
- 现有时空行为检测的工作都是offline的，不支持online。（虽然论文是2017年的，但其实到目前为止，主要工作都差不多都是offline的）

2. 用了什么方法

提出了一个online版的时空行为检测框架
- 输入数据是RGB图像。
- 最开始分为两个分支：RGB以及Flow。其中Flow是通过RGB得到的，有实时（光流质量较差）与非实时（光流质量较好）两个版本。
- 目标检测使用的就是普通SSD，对每张图片单独进行检测与分类。
- 之后，要融合RGB与光流的检测结果，有两种融合方法：
  - Boost-fusion：没看细节
  - Fusion by taking the union-set：将两个网络的检测结果合并
- online版本的 action tube 构建，这个后面单独介绍
Online Action Tube Generation
- 问题定义：假设在时间点 t=1 ... T 内，对特定行为有一组检测结果，我们要寻找时间上连续的一组检测结果（即action tubes）。
- 注意：每类行为是单独处理的。
- 对于得到的 action tube 有以下要求
  - 相邻检测结果之间的iou大于一定阈值
  - 每个action detection的结果只属于一个action tube。
  - 在线更新tube的 temporal labels。
- 提出了一种贪心方法，关联当前帧结果以及之前的结果。
  - 算法的输入每一帧的检测结果，即bbox+行为类别+scores。
  - 每一个step，在满足IOU的情况下，对于每一类行为，当前最好（score最高）的bbox匹配历史最好的tube。

3. 效果如何

SOTA对比
本算法不同配置的速度

4. 还存在什么问题&有什么可以借鉴

直接使用图像检测网络来执行行为识别，对于一些动作来说不靠谱。

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode