论文浏览(12) SmallBigNet: Integrating Core and Contextual Views for Video Classification

文章目录

0. 前言
1. 要解决什么问题
2. 用了什么方法
3. 效果如何
4. 还存在什么问题

0. 前言

相关资料：
- arxiv
- github
- 论文解读
论文基本信息
- 领域：视频分类
- 作者单位：商汤&中国科学院深圳先进技术研究院
- 发表时间：2020.6
- CVPR 2020

1. 要解决什么问题

直接使用3x3x3的3D卷积可能会导致参数过多、运算量较大、难以训练等诸多问题，所以一般会分解为 1x3x3 的 spatial convolution 以及 3x1x1 的 temporal convolution。
使用3D卷积提取视频特征的时候，spatio-temporal contexts 很可能处于一个Limitted view（受限的范围）内。
- 下图（High jump动作）就是 temporal convolution 常见的一种 Limited view 情况。
- 大概意思是在t-1或t+1时同一个位置的信息可能会妨碍对t时刻本身动作的分类。

2. 用了什么方法

提出了SmallBig Unit
- 基本思想就是在SmallBig Unit中分类Small/Big两路，结构如下图所示。
- Small：普通的1x1x1卷积
- Big：3x3x3 max pooling + 1x1x1卷积。
  - 3D max pooling 可以用来选择最合适的上下文信息，从而解决开头提到的问题……
- 上面两条分支的 1x1x1 卷积是共享参数的。
从公式角度理解SmallBig Unit。
- 普通的Temporal Convolution的形式：
  - x代表输入，y代表输出，t代表时刻，(h, w)代表在特征图中的位置， $\Theta$ 表示卷积操作的参数。
- SmallBig Unit
  - small view 就是普通的1x1x1卷积，big view是先3x3x3 max pooling + 1x1x1 卷积。
  - 两个 1x1x1 卷积是共享参数的。
SmallBig Block
- a是普通2D block，即在temporal dimension上没有做什么操作，对应卷积核都是1。
- b是普通3D block，在non-local中使用，将3x3x3转换为3x1x1 + 1x3x3，其他就是普通resnet block。
- c-e是带有 SmallBig Unit 的Block。
  - e中的T一般就是输入的帧的数量。
  - e中要这么做的原因是，在通过前几部卷积后，空间（spatial）上的感受野很大，所以时间上（temporal）也要同样增加，就通过e中Tx1x1的结构来增加。
  - f在e的基础上增加了一个small big block，说是把新增的这个当做是attention。
SmallBig-ResNet
SmallBig的功能与Non-local类似。

3. 效果如何

在Kinetics-400上做了一大堆实验：
- 说明了smallbig提高了多少点，在那些stage上使用smallbig，smallbig中max pooling的尺寸，是否共享参数，在backbone为resnet-23的时候甚至超过普通的backbone为resnet-50的情况

4. 还存在什么问题

代码尚未开源，等待大佬。
看起来是用来提到Non-local的，对比了GFlops，但没提inference time，需要自己再尝试一下。

相关文章：

2021-08-01
2021-11-22
2021-10-24
2021-06-10
2021-07-24
2021-06-25
2021-06-23
2021-08-27

猜你喜欢

2021-08-14
2021-06-25
2021-10-15
2022-12-23
2021-08-29
2021-08-03
2021-07-15

相关资源

下载 2021-06-06
下载 2023-04-02
下载 2023-01-23
下载 2023-02-13

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode