论文浏览(25) Region-based Non-local Operation for Video Classification

CNN本身存在问题。
- 使用CNN处理问题是，感受野被限制在kernel里。
- 多层CNN的感受野也都是同一个形状。
- 上面描述的情况与现实场景非常不一样。
- 用原文里的话说，要获取 long-range dependencies 都是用多层CNN叠加，这非常不合适。
为了解决上面的问题，原先可以用 Non-local 结构，但该结构也存在问题：
- 计算两个点之间相互依赖关系的时候，只用了这两个点的信息，而没有充分利用点周围的信息。

首先回顾了Non-local操作
- 细节不多说了，要注意的就是，对于一个结果 $y_i$ ，其作用的原始 $x_i, x_j$ 两个点，其他未知并没有任何帮助。
之后提出了改进版结构 region-based non-local operation (RNL)
- 最初的设想：RNL中两个点之间的相互关系不仅仅与这两个点本身有关，还与其周边领域有关。这个领域叫做region。
- 所以定义以某个点为中心的立方体为 $N_{i}$ ，则两个点之间的关系可以通过以下公式表示：
- 上面公式中的 $\theta$ 指的是information aggregation function，作用是分别总结了每个channel中某个region的特征信息。该函数的实现如下公式所示：
- 最终RNL的公式可以写成
- 上面的 f() 函数用于计算两个点的相似度
  - 可以使用Non-local中的 gaussian version dot product version，前者形如，后者形如
  - 本文提出可以使用 cosine version，即
- RNL 的网络结果如下图
如何将RNL用到普通视频分类网络中
- 由于RNL中用到的权重关系中，每个channel中电的信息至于当前channel的其他region有关，所以这里可以用 Sperabale Convolution 实现。