Large Scale Holistic Video Understanding

链接	PDF DataSet
作者	Ali Diba¹
期刊	CVPR 2019
领域	Video recognition
输入	RGB vide
方法	2D/3D ConvNet ; Multitask Learning

本文为论文的阅读笔记，内容精简，帮助快速理解论文，若有错误望指正！

1、摘要

视频识别

目前其他研究局限于人类行为或运动识别-专注于高度特定的视频理解任务

整体视频理解数据集(HVU)

通过语义分类将多标签和多任务视频理解作为包含动态场景中多个语义方面的识别的综合问题来关注

整体外观和时间网络(HATNet)

采用时空深度神经网络结构
通过组合外观和时间的中间表示，将2D和3D架构融合为一个整体
专注于多标签、多任务的学习

2、引言

视频识别

涉及场景或环境、对象、动作、事件、属性和概念
目前研究大多数局限于动作识别

ConvNet的缺点

（单任务时）不足以描述整个视频的内容
阻碍ConvNet学习通用特征表示

HVU

提供具有用于视频分析和理解的任务和注释的全面列表的多标签和多任务大规模视频基准
282个场景类别、1917个对象类别、882个动作类别、77个事件类别、106个属性类别和193个概念类别

HATNet

专注于多标签和多任务学习，用多个方面的语义识别于同时解决多个时空问题
通过组合外观和时间信息的中间表示，将2D和3D架构融合为一个整体，产生健壮的时空表示
在HMDB51、UCF101和Kinetics数据集上取得了出色的结果

3、相关研究

基于ConvNets的动作识别

2D(单个图像级别)
3D(K帧的视频剪辑或片断)
- 网络架构的过滤器和汇集内核是3D(x, y, time)，即3D卷积(s, s, d)，其中d是内核的时间深度，s是内核的空间大小
卷积核
- 基于初始化的 I3D
- 模拟可变的时间卷积核 T3D

HATNet

2D and 3D ConvNets来学习有效的时空特征表示
是强监督学习
将预先训练的深度特征串联起来，针对不同的任务、场景、对象和动作进行独立学习，目的是识别

视频分类数据集

主要集中在动作识别
当前的实验策略是首先在这些大规模视频数据集上从头开始预先训练模型，然后在小规模数据集上对它们进行微调，以分析它们的传输行为

4、HVU Dataset

动作识别的一个重要研究问题是如何利用视频中的其他上下文信息，但没有很好的研究
有助于整体视频理

HVU数据

572k个视频（10s以内）
6个主要类别：场景、对象、动作、事件、属性和概念
共3457个标签，每个标签大约2112个注释

下图2为数据集标签和数据量，图3为数据集对比：
Large Scale Holistic Video Understanding | 论文阅读

收集和注释

使用这种方法的原因是：单纯人工在大量标签的情况下容易出错，而且无法考虑到一些细节；并且十分耗时
数据收集
- 主要来自于YouTube-8M , Kinetics-600, HACS
HVU注释分两个阶段
- 使用现有的视频标签API来获取视频的粗略注释。每个视频约有30个标签
- 人工去除错误标签，并添加可能遗漏的标签

分类法

删除了分布不平衡的标签，最后，通过使用WordNet本体细化标签以获得最终的分类法

5、Holistic Appearance and Temporal Network

3D-ConvNets基准

3D-ConvNets在处理视频片段中可利用空间和时间信息
选择了3D-ResNet[46]和STCnet[8]作为我们的3D CNNs基线
使用平均平均精度(MAP)

多任务学习 3D-ConvNets

定义两个任务
- 动作分类
- 多标签分类
  - 即对象、场景等的单标签动作分类和多标签分类
基本网络是STCnet[8]
- 有两个单独的Conv层用于每个任务的末端
- 将ResNet18作为主干
损失
- L_Total= L_Action + L_Tagging
- 标记分支，使用交叉熵损失
  - Sigmoid + one hot
- 动作识别分支，使用Softmax损失

理解：

sigmoid是针对于标量，即每个输出都有对应的概率与其他输出不相关；使用在多标签分类

softmax是针对于向量，即对每个标签预测，但预测值相关，即只能拥有一个标签，预测值和为1，用于单标签分类

Large Scale Holistic Video Understanding | 论文阅读

2D/3D HATNet

预训练
- ImageNet上预训练2D
- Kinetics视频上预训练3D网络
外观神经模块
- 使用2D ConvNets来提取视频片段中各个帧的静态线索，即捕捉帧中的空间结构
- 目标是在识别动作的同时识别对象、场景和属性
时间神经模块
- 使用3D ConvNets来处理一批帧中交互的时间线索
- 理解动态场景和人类活动
组合
- 加入合并和还原块（M&R block）
  - 将特征压缩成更紧凑和健壮的表示
- 它们具有相同的空间核大小，可以将网络任何中间阶段的外观分支和时间分支的输出结合起来
设计
- M&R block 通过111卷积实现，输入2*64通道，输出64通道
- 先三维和二维分支单独进行，最后合并
- 使用3D-ResNet和STCnet，骨干网络为ResNet18/50
- 输入分辨率112*112

6、实验

细节

使用16或32帧长的RGB视频片段作为输入
Pytorch
8 V100 NVIDIA GPUs

HVU 上训练结果

在HVU数据集上采用本文HATNet网络和另外两个网络对比

基于HVU的多任务学习

观察采用多任务学习和不使用的区别，可以看出使用多任务学习后网络性能提升了

迁移学习：HVU vs Kinetics

在迁移学习中使用HVU数据集进行预训练，然后在目标数据集上进行微调
进行对比，体现使用HVU数据集预训练的优越性

与SOTA方法对比

Large Scale Holistic Video Understanding | 论文阅读

引用中值得深读的两篇论文：
STCNet: Ali Diba, Mohsen Fayyaz, Vivek Sharma, M Mahdi Arzani, Rahman Yousefzadeh, Juergen Gall, and Luc Van Gool. Spatio-temporal channel correlation networks for action classification. In ECCV, 2018. PDF
3D-ResNet: Du Tran, Jamie Ray, Zheng Shou, Shih-Fu Chang, and Manohar Paluri. Convnet architecture search for spatiotemporal feature learning. arXiv:1708.05038, 2017. PDF

目录