【视频理解】近年文章综合（2019/2020）

前言

本文内容关于行为识别/行为检测
搞个大事情

轻量化

标题:AR-Net: Adaptive Frame Resolution for Efficient Action Recognition
链接：https://arxiv.org/pdf/2007.15796.pdf
来源：ECCV2020
类型： action recognition

motivation
不同帧对分类结果的贡献是不同的。希望通过一个网络自动地分辨帧的重要性，降低不重要帧的分辨率，从而实现加速。
method
【视频理解】近年文章综合（2019/2020）

用一个policy network决定输入帧的分辨率。policy network由一个提取特征的CNN和一个lstm构成。policy network给出建议的分辨率，输入图像resize到该分辨率，送入对应的分类网络。为了进一步节省时间，policy network可以决定忽略某些帧(即将分辨率设为0).

长短期建模

标题:Context-Aware RCNN: A Baseline for Action Detection in Videos
链接：https://arxiv.org/pdf/2007.09861.pdf
来源：ECCV2020
类型： action localization

先复习一下行为检测的任务。给定一帧，要定位图中人的位置，以及识别此刻的动作。
通常的做法是用人的目标检测器逐帧把人框出来，然后crop，此时就退化为一个行为识别任务，送入识别网络就好了。
method
【视频理解】近年文章综合（2019/2020）
不同帧的bounding box 大小不同，而在送入分类网络前需要统一输入尺寸。之前的做法类似Faster RCNN，即用Roi Pooling将输入变成尺寸固定的特征，但小目标的信息丢失严重。本文的做法类似RCNN，即crop+resize到一个固定的尺寸，这样小目标会被放大。
最终分类结果融合了三部分的信息：crop后的人物行为信息，短期上下文信息，长期信息。