0. 前言
- 相关资料:
- arxiv
- github
- 论文解读
- 论文基本信息
- 领域:行为识别(视频分类)
- 作者单位:约克大学
- 发表时间:2020.7
1. 要解决什么问题
- CNN本身存在问题。
- 使用CNN处理问题是,感受野被限制在kernel里。
- 多层CNN的感受野也都是同一个形状。
- 上面描述的情况与现实场景非常不一样。
- 用原文里的话说,要获取 long-range dependencies 都是用多层CNN叠加,这非常不合适。
- 为了解决上面的问题,原先可以用 Non-local 结构,但该结构也存在问题:
- 计算两个点之间相互依赖关系的时候,只用了这两个点的信息,而没有充分利用点周围的信息。
2. 用了什么方法
- 首先回顾了Non-local操作
- 细节不多说了,要注意的就是,对于一个结果 ,其作用的原始两个点,其他未知并没有任何帮助。
- 之后提出了改进版结构 region-based non-local operation (RNL)
- 最初的设想:RNL中两个点之间的相互关系不仅仅与这两个点本身有关,还与其周边领域有关。这个领域叫做region。
- 所以定义以某个点为中心的立方体为 ,则两个点之间的关系可以通过以下公式表示:
- 上面公式中的 指的是information aggregation function,作用是分别总结了每个channel中某个region的特征信息。该函数的实现如下公式所示:
- 最终RNL的公式可以写成
- 上面的 f() 函数用于计算两个点的相似度
- 可以使用Non-local中的
gaussian versiondot product version,前者形如,后者形如
- 本文提出可以使用 cosine version,即
- 可以使用Non-local中的
- RNL 的网络结果如下图
- 如何将RNL用到普通视频分类网络中
- 由于RNL中用到的权重关系中,每个channel中电的信息至于当前channel的其他region有关,所以这里可以用 Sperabale Convolution 实现。
3. 效果如何
- 总而言之,性能就是好
4. 还存在什么问题
-
可以替代Non-local,那用法应该也应该与Non-local类似吧。
-
现在也就看了个大概,细节还是要复现的时候看看。