论文阅读《Dynamic Image Networks for Action Recognition》

Dynamic Image Networks for Action Recognition

参考
https://www.cnblogs.com/jie-dcai/p/5755650.html
https://www.cnblogs.com/jie-dcai/p/5773476.html

动态图计算过程：
原始帧为x，则一个视频帧序列为X=[x1,x2,…xn]。
1、对输入的每一帧，计算它们的特征向量（HOG、HOF、MBH、TRJ）
2、对特征向量进行smooth，time varying mean vector,mt=1t×Σtτ=1Xτ
3、然后通过学习RankSVM得到参数u

在dynamic论文中发现，这样的参数向量u，事实上与image是同等大小的，也就是说，它本身是一张图片（假如mapψ(⋅)与image同大小而不是提取的特征向量），那么就可以把图片输入到CNN中进行计算了。如下图可以看到一些参数向量u pooling的样例

论文阅读《Dynamic Image Networks for Action Recognition》

参数向量d的快速计算

1、把计算d的过程定义一个函数ρ(I1,...,IT;ψ)，一个近似的方法是初始化d=0⃗

2、通过梯度下降的方法求解d的最优值：

d * = - η \nabla E (d) | d = 0 ⃗ \propto - \nabla E (d) | d = 0 ⃗

最终可以得到：

论文阅读《Dynamic Image Networks for Action Recognition》

把上式展开得

其中αt=2(T−t+1)−(T+1)(HT−Ht−1)，这里Ht=Σti=11i
于是结果：ρ(I1,...,IT;ψ)=ΣTi=1αtψ(It)