StNet: Local and Global spatial-temporal modeling for action regcognition

摘要：静态图像理解上取得了成功，高效的视频时序以及空域建模的网络有待发展。兼顾局部时空联系以及全局时空联系的视频时空联合建模网络框架StNet。Stnet将视频中连续N帧图像级联成一个3N通道的图，用2D卷积对图进行局部时空联系的建模。

1.Introduction

CNN+RNN

2D卷积从采样的RGB帧中提取外观特征，其仅利用局部空间信息而不是局部空间-时间信息。

2D到3D？

将较浅的2D conv 映射到他们对应的3D counterparts 可能不足以产生有辨别力的视频描述符；深度将2D conv的3D版本将导致过大的模型以及在训练和推理阶段过大的计算成本。

2.Related work

3.Proposed approach

Super-Image: 对T个时间段进行采样，每个时间段由N个连续的RGB帧而不是单个帧组成。网络的输入是T*3N*H*W，

Temporal Modeling Block: 我们在res3和res4后插入两个时间建模块，the temporal modeling blocks are designed to capture the long-range temporal dynamics inside a video sequence and they can be easily implemented by leveraging the architecture of conv3d-BN3D-RELU

StNet: Local and Global spatial-temporal modeling for action regcognition

Temporal Xception block:

StNet: Local and Global spatial-temporal modeling for action regcognition