前言

本文内容关于行为识别/行为检测
搞个大事情

轻量化

标题:AR-Net: Adaptive Frame Resolution for Efficient Action Recognition
链接:https://arxiv.org/pdf/2007.15796.pdf
来源:ECCV2020
类型: action recognition

motivation
不同帧对分类结果的贡献是不同的。希望通过一个网络自动地分辨帧的重要性,降低不重要帧的分辨率,从而实现加速。
method
【视频理解】近年文章综合(2019/2020)

用一个policy network决定输入帧的分辨率。policy network由一个提取特征的CNN和一个lstm构成。policy network给出建议的分辨率,输入图像resize到该分辨率,送入对应的分类网络。为了进一步节省时间,policy network可以决定忽略某些帧(即将分辨率设为0).

长短期建模

标题:Context-Aware RCNN: A Baseline for Action Detection in Videos
链接:https://arxiv.org/pdf/2007.09861.pdf
来源:ECCV2020
类型: action localization

先复习一下行为检测的任务。给定一帧,要定位图中人的位置,以及识别此刻的动作。
通常的做法是用人的目标检测器逐帧把人框出来,然后crop,此时就退化为一个行为识别任务,送入识别网络就好了。
method
【视频理解】近年文章综合(2019/2020)
不同帧的bounding box 大小不同,而在送入分类网络前需要统一输入尺寸。之前的做法类似Faster RCNN,即用Roi Pooling将输入变成尺寸固定的特征,但小目标的信息丢失严重。本文的做法类似RCNN,即crop+resize到一个固定的尺寸,这样小目标会被放大。
最终分类结果融合了三部分的信息:crop后的人物行为信息,短期上下文信息,长期信息。

相关文章:

  • 2022-12-23
  • 2022-02-08
  • 2021-11-29
  • 2022-12-23
  • 2022-12-23
  • 2021-04-21
  • 2021-12-09
  • 2021-09-06
猜你喜欢
  • 2022-01-03
  • 2022-12-23
  • 2021-07-03
  • 2021-12-28
  • 2021-11-23
  • 2021-12-10
  • 2021-04-26
相关资源
相似解决方案