论文地址: https://arxiv.org/abs/2004.03548
导读:这篇文章是香港中文大学和商汤发表在CVPR 2020 的文章
作者提出TPN网络,用于视频分类问题的解决,思想和slowfast的思想相似
在相同速率下很难识别出来走、慢走和跑的动作,不同的视频帧速率对检测结果影响很大,现有的视频模型设计忽略了视觉速度这一至关重要的点
在此之前facebook的kaiming提出slowFast (代码地址)网络结构的想法很相似,快慢结合的网络,上面一个分支是slow网络,输入低帧率,用于捕获空间语义信息;下面一路是fast网络,用于捕获运动信息,具体如下图:
上面两个图,下面六个图,呈现出来了金字塔形状,不同尺度的下采样送入网络,问题在于需要重复提取不同时间尺度上的特征,计算花费很大
所以提出来了解决方法:
第一部分
时间尺度
-
在不同分辨率的特征图中,以不同的帧速率提取不同组合的特征图,并形成新的特征图
-
以单个分辨率特征图为例,将特征图 F(C ×T ×W ×H) 根据 {r1, …, rM; r1 < r2 < … < rM} 划分组合得到新的特征图
简单来讲 需要构建时间的金子塔,进行了图排序
例如,从图像中每隔十帧里面进行抽取了一帧,总共十帧图像,再间隔r1=2中取,获得新的特征图,进行拼接,下一次再从r2=3中,获得新的特征图,在进行拼接 取以此类推获得到了 时间序列的金字塔形状的操作
第二部分
空间尺度
1、通过一系列不同步长的卷积,在空间尺度上的对齐来自不同深度特征
2、通过在每层添加分类层,增强监督信息。
3、对前面的模块得到的特征进行特征整合,包括三种方式:
由于网络不同层次的输出,其空间与时间的大小不一致,信息不能很好的融合。
Spatial Semantic Modulation 空间语义的调整。
由于网络的不同深度的输出大小不一致,为了便于融合,就是需要调整空间大小,本文直接使用卷积去调整大小一致。另一方面,本文的损失函数是使用中间层监督的方法,即每一层都加入一个交叉熵损失的约束。当然这样做的一个细节就是网络的初始层,梯度来源多源,变动比较大。
Temporal Rate Modulation 时序的对齐调整
结果:
表2 result of K400
网络结构具体操作还需要代码解读,详见github地址:
https://github.com/decisionforce/TPN
感谢百度大脑,paddlepaddle组织顶会论文复现活动,让我加班加点写代码,熬夜读paper !
痛苦并快乐着!
感谢AI技术生态部的团队的老师的讲解和运营团队的努力准备,尤其是班班-芮芮班主任,直播后加班加点赶视频,整理内容,解答问题,天天工作到凌晨2、3点钟,激发我继续努力学习的动力!