[论文阅读]Rank Pooling for Action Recognition

Rank Pooling for Action Recognition

2015/12 PAMI
作者：http://users.cecs.anu.edu.au/~basura/

首先，framework
[论文阅读]Rank Pooling for Action Recognition
1、对每一帧都进行特征编码，作者选择的特征有HOG HOF MBH TRJ
2、进行平滑
3、rankSVM，求出参数u
4、对参数u进行分类（SVM）

所以实际上就是用参数u来表达一个视频，在其所在空间进行分类

abstract & intro

视频的表示方法有很多，一般是把它看作帧的序列。论文提出一种新的方法——基于函数的时间池化方法，捕捉视频序列的潜在结构，比如说帧级别的特征随着时间是如何演化的。
in this paper：

提出了新的视频表达方式。rank pooling。
- 可以捕捉视频级别的时间演化。虽然同一个动作的时间长短是不一样的，但是元动作的时间顺序是不变的。
- 通过训练线性ranking machine来捕捉特定视频的时间顺序。具体来说，就是对于给定视频的所有帧，学习如何按照时间顺序来arrange这些帧。
- 用ranking function的参数编码视频的帧序列。
- ranking machine采用有监督学习方式，在同一个动作的不同视频上进行训练，应当得到相似的ranking function。因此，提出用ranking machine的参数作为新的动作识别的表达形式。在这种新的representation 上来训练分类器。

Video representations

函数参数作为时间表达

视频帧：xt(xt∈RD)
视频：X=[x1,x2,...,xn]
给定一个向量序列，先进行平滑（后面详细讨论如何平滑），得到新的序列：V=[v1,v2,...,vn]
（x1:t or v1:t 表示从时间1~t的子序列）
接下来，我们需要编码序列V的appearances变化（即动态D），抽象的说，动态D反映了向量对于从时间t到t+1的输入是如何变化的。假设序列V已经充分平滑，采用线性函数编码动态D：

Ψ u = Ψ (V; u)

u为参数。遮掩的话Ψ就近似于D，即：

a r g m i n u | | D - Ψ u | |

动态D的定义稍后讨论。对于D，存在一族函数Ψ，相同动作的不同视频有相似的appearance，也有相似的动态来描述。对于每一个视频Vi(·)，学习不同的动态函数Ψi(·;ui)。保证函数家族Ψ的稳定和鲁棒性，相同动作的不同视频可以得到想死的动态函数Ψi(·;ui)。

对于所有的视频，用于对其动态建模的函数家族\Psi都是一样的，不一样只是参数ui。参数则用于视频的representation。

rank pooling

[论文阅读]Rank Pooling for Action Recognition
rank函数可以给在越后面的帧打出越高的分数。
Using ranking machines for modeling the video temporal evolution of appearances, or alternatively, the video dynamics. We see in (a) the original signal of independent frame representation, (b) the signal obtained by moving average, (c) the signal obtained by time varying mean vector (different colors refer to different dimensions in the signal vt). In (d), (e) and (f) we plot the predicted ranking score of each frame obtained from signal (a), (b) and (c) respectively after applying the ranking function (predicted ranking value at t, st = uT·vt).
把动态D看作在正确顺序中置换帧的驱动力。当然，尽管不同的视频中在速度上有非常大的不同，相对顺序还是存在的。为了得到这样的动态，考虑learning-to-rank范例，它优化了形式为Ψ(t,v1:t;u)的排序函数。也可以采用按点地、成对的或者基于序列的ranking machine。然后，采用这些ranking machine的参数作为新的表达。

帧的appearance的变化与时间相关，如果帧vt+1在vt后面，则定义vt+1≻vt；最终就会得到一个顺序vn≻...≻vt≻...≻v1。

为了对视频动态的rankpooling建模，要解决一个最小约束问题“pairwise-learning-to-rank”，来满足帧序列的顺序约束。pairwise线性ranking machine学习线性函数：ψ(v;u)=uT·v,参数为u。由上式可以得到vt的排序分数，且满足pairwise约束vt+1≻vt，同时也避免了过拟合。因此我们只在学习满足所有约束的参数向量u。

结构风险最小化、最大间隔框架–>目标函数：

a r g m i n u 12 | | u | | 2 + C Σ \forall i, j v t i ≻ v t j ϵ i j

s . t . u T \cdot (v t i - v t j) \geq 1 - ϵ i j

ϵ i j \geq 0.

参数u定义了视频帧vt的顺序，表示视频帧随着时间如何演化。所以appearance evolution可以通过参数u来编码。也可以用其他的，比如SVR（support vector regression）。