从图片到视频肯定是科研发展的方向,可惜需要的资源太多,像我这种只有一个GPU的根本做不了,不过学习学习总是好的。
未完成,主要自己看,主要是动作识别方向
[CVPR-2018] Non-local Neural Networks [paper][code]
其实我对该论文的做法是抱保留态度的,虽然他的出发点我是十分赞同的。该工作主要是想利用空间和时间上全局的信息来辅助视频或图片上的理解任务,这个是很合理的出发点,所以像作者提到之前的global mean什么的方法(虽然我没看),或者是分割里面比较新的论文Context Encoding for Semantic Segmentation加个全局分类损失,我都非常理解。但是作者采用是这么一个策略,以图片为例,如果是传统的方法,对于一个特征图,每个像素点的值都是卷积堆叠的结果,获取的信息跟感受野有关,因此称之为local也是合理的。作者想为每个点增加全局信息,采用的其实就是一个有权重的累加,计算的公式跟全局的卷积有点小类似,如下面的公式,x是特征图,i,j等就是坐标,f是相似性的函数,g是一个转化,比如1*1的卷积,学术上称之为embedding,
权重是两个特征值的相似性。两个点的特征越相似,那么权重越大,如下面的公式。但是这样就完全抛弃空间或时间的关系,这是很不合理的,如果两个像素点的特征相似但是隔的很远,他们的关系会有那么强么?
接下来作者就把这个公式完美地用一个新的cnn building block实现了出来。首先需要定义上面的g和h. g论文里就用1*1的卷积了,f是一个embeded guassian,如下图,不难理解
最后就成了这样,θ和φ就是f里面的embedding,特征用512维表示,减少计算,下图最左边的矩阵乘法就是上面公式3的右上部分,softmax把公式3的指数跟归一化包办了,还是比较优美的。
[ICCV-2017]
Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks [paper][code]
P3D
[CVPR-2017 ] Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset
I3D
[NIPS-2014]Two-Stream Convolutional Networks for Action Recognition in Videos[paper]