StNet: Local and Global spatial-temporal modeling for action regcognition
摘要:静态图像理解上取得了成功,高效的视频时序以及空域建模的网络有待发展。兼顾局部时空联系以及全局时空联系的视频时空联合建模网络框架StNet。Stnet将视频中连续N帧图像级联成一个3N通道的图,用2D卷积对图进行局部时空联系的建模。
1.Introduction
CNN+RNN
2D卷积从采样的RGB帧中提取外观特征,其仅利用局部空间信息而不是局部空间-时间信息。
2D到3D?
将较浅的2D conv 映射到他们对应的3D counterparts 可能不足以产生有辨别力的视频描述符;深度将2D conv的3D版本将导致过大的模型以及在训练和推理阶段过大的计算成本。
2.Related work
3.Proposed approach
Super-Image: 对T个时间段进行采样,每个时间段由N个连续的RGB帧而不是单个帧组成。网络的输入是T*3N*H*W,
Temporal Modeling Block: 我们在res3和res4后插入两个时间建模块,the temporal modeling blocks are designed to capture the long-range temporal dynamics inside a video sequence and they can be easily implemented by leveraging the architecture of conv3d-BN3D-RELU
Temporal Xception block: