Rank Pooling for Action Recognition
2015/12 PAMI
作者:http://users.cecs.anu.edu.au/~basura/
首先,framework
1、对每一帧都进行特征编码,作者选择的特征有HOG HOF MBH TRJ
2、进行平滑
3、rankSVM,求出参数u
4、对参数u进行分类(SVM)
所以实际上就是用参数u来表达一个视频,在其所在空间进行分类
abstract & intro
视频的表示方法有很多,一般是把它看作帧的序列。论文提出一种新的方法——基于函数的时间池化方法,捕捉视频序列的潜在结构,比如说帧级别的特征随着时间是如何演化的。
in this paper:
- 提出了新的视频表达方式。rank pooling。
- 可以捕捉视频级别的时间演化。虽然同一个动作的时间长短是不一样的,但是元动作的时间顺序是不变的。
- 通过训练线性ranking machine来捕捉特定视频的时间顺序。具体来说,就是对于给定视频的所有帧, 学习如何按照时间顺序来arrange这些帧。
- 用ranking function的参数编码视频的帧序列。
- ranking machine采用有监督学习方式,在同一个动作的不同视频上进行训练,应当得到相似的ranking function。因此,提出用ranking machine的参数作为新的动作识别的表达形式。在这种新的representation 上来训练分类器。
Video representations
函数参数作为时间表达
视频帧:
视频:
给定一个向量序列,先进行平滑(后面详细讨论如何平滑),得到新的序列:
(
接下来,我们需要编码序列V的appearances变化(即动态D),抽象的说,动态D反映了向量对于从时间t到t+1的输入是如何变化的。假设序列V已经充分平滑,采用线性函数编码动态D:
动态D的定义稍后讨论。对于D,存在一族函数
对于所有的视频,用于对其动态建模的函数家族\Psi都是一样的,不一样只是参数ui。参数则用于视频的representation。
rank pooling
rank函数可以给在越后面的帧打出越高的分数。
Using ranking machines for modeling the video temporal evolution of appearances, or alternatively, the video dynamics. We see in (a) the original signal of independent frame representation, (b) the signal obtained by moving average, (c) the signal obtained by time varying mean vector (different colors refer to different dimensions in the signal
把动态D看作在正确顺序中置换帧的驱动力。当然,尽管不同的视频中在速度上有非常大的不同,相对顺序还是存在的。为了得到这样的动态,考虑learning-to-rank范例,它优化了形式为
帧的appearance的变化与时间相关,如果帧
为了对视频动态的rankpooling建模,要解决一个最小约束问题“pairwise-learning-to-rank”,来满足帧序列的顺序约束。pairwise线性ranking machine学习线性函数:
结构风险最小化、最大间隔框架–>目标函数:
参数u定义了视频帧vt的顺序,表示视频帧随着时间如何演化。所以appearance evolution可以通过参数u来编码。也可以用其他的,比如SVR(support vector regression)。