PaddlePaddle论文复现营论文精读

Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognation

论文作者及机构

百度顶会论文复现营网址

https://aistudio.baidu.com/aistudio/education/group/info/1340

摘要

3D卷积神经网络能够直接从视频中提取时空特征进行动作识别，但是3D卷积神经网络因为其参数数量过大而容易产生过拟合现象，这大大限制了3D卷积神经网络的深度，本文将ResNet的思想用于3D卷积，构建了基于ResNet的3D卷积神经网络，一定程度上解决了3D卷积容易过拟合的问题。

ResNet残差网络

传统的卷积网络或者全连接网络在信息传递的时候或多或少会存在信息丢失，损耗等问题，同时还有导致梯度消失或者梯度爆炸，导致很深的网络无法训练。ResNet在一定程度上解决了这个问题，通过直接将输入信息绕道传到输出，保护信息的完整性，整个网络只需要学习输入、输出差别的那一部分，简化学习目标和难度。本文残差块如下所示：
PaddlePaddle论文复现营论文精读

网络结构

本文提出的网络与原始ResNet的不同之处在于卷积核和池的维数。本文的3D ResNet执行3D卷积和3D池化。卷积核的大小是3x3。卷积层的临时步幅为1，与C3D模型相似[。网络使用16帧RGB剪辑作为输入。输入剪辑的尺寸为3 x 16 112 x 112。当特征图数量增加时，对conv3-1、conv4-1、conv5-1执行的输入向下采样，步长为2。为了避免参数数量的增加，本文采用了零填充的方式。网络结构如下图所示：
PaddlePaddle论文复现营论文精读

实验和数据集

本文中使用了 ActivityNet 和Kinetics数据集。ActivityNet数据集提供了200个人类行为类的样本，平均每个类有137个未剪辑的视频，每个视频有1.41个活动实例。视频总长度为849小时，活动实例总数为28108个。数据集被随机分成三个不同的子集：训练集、验证集和测试集，其中50%用于训练，25%用于验证和测试。
下图表示在ActivityNet数据集上训练模型。ActivityNet的规模相对较小（20000个视频），而Dynamics（300000个视频和Sports1M（1000000个）。三维ResNet过度拟合，因为相对较小的尺寸，而C3D得到了更好的精度没有过度拟合。 PaddlePaddle论文复现营论文精读
下图表示在Kinetics数据集上训练模型。由于使用了大规模的Kinetics数据集，三维ResNet在没有过度拟合的情况下取得了良好的性能。