论文地址: https://arxiv.org/abs/1811.11057

简介

相较于图像目标检测,视频目标检测由于更符合真实场景而受到越来越多的关注。大多数的深度视频目标检测方法是在视频流解码后的单帧上进行处理,嵌入进视频压缩格式中有价值的信息通常被忽略了。在这篇文章中,作者提出了一种基于运动辅助记忆网络的快速目标检测方法,它有两大优势:一、极大地加速了压缩视频的特征提取工作,它只需要为视频中少数的I帧运行一个完整的识别网络,并为P帧提供特征,而P帧是通过一个参数很少的记忆网络进行学习的。二、充分利用了压缩视频中的运动矢量和残差。

压缩视频目标检测MMNet:Fast Object Detection in Compressed Video

方法

作者提出的框架如上图所示,主要分为三个网络:一、 Pyramidal Feature Attention ,二、 Motion-aided Memory Network ,三、Detection Network,分别用 N f e a t 、 N m e m 、 N r f c n N_{feat}、N_{mem}、N_{rfcn} NfeatNmemNrfcn表示。

Pyramidal Feature Attention

之前的方法只对相邻帧的高层特征进行传播,这对有着很多不同尺度的目标检测来说是不够友好的,因此,作者在第一个模块完成了可适应性的金字塔特征结合(上图框架中的 N f e a t N_{feat} Nfeat部分),然后再输入到运动辅助的LSTM网络中。

压缩视频目标检测MMNet:Fast Object Detection in Compressed Video

如上图所示,首先,一个网络可以被分为L个阶段,每个阶段的层输出的分辨率都相同,作者为每个阶段定义了一个金字塔层(如上图左边红色层),并使用了网络的第3,4,5个阶段的金字塔层作为输入并将他们转换为同一维度,如下式:

压缩视频目标检测MMNet:Fast Object Detection in Compressed Video

其中 F e m b e d ( ) F_{embed}() Fembed()为合适步长的卷积层,目标维度的大小是 f t L f_t^L ftL

二、在通道轴上进行挤压操作用于表示在位置(i,j)上每种尺度l:

压缩视频目标检测MMNet:Fast Object Detection in Compressed Video

i和j枚举了特征图上的所有空间位置,挤压操作是将通道维度上的所有元素相加。作者将上式的输出称为尺度描述。

三、为了适应性的结合不同尺度上的特征,作者将尺度描述作为输入用于生成注意力权重,被融合的特征 f t a t t e n f_t^{atten} ftatten和注意力权重 a t l ( i , j ) a_t^l(i,j) atl(i,j)定义如下:

压缩视频目标检测MMNet:Fast Object Detection in Compressed Video

注意力权重由尺度描述产生:

压缩视频目标检测MMNet:Fast Object Detection in Compressed Video

Motion-aided Memory Network

运动矢量和残差

压缩视频目标检测MMNet:Fast Object Detection in Compressed Video

如上图所示,在压缩数据中,P帧会被划分为多个宏块。支持的预测块大小范围为 4 ∗ 4 4*4 44 16 ∗ 16 16*16 1616。实验中使用FFmpeg用于为每个P帧提取运动矢量和残差。当获取到解码后的残差和运动矢量,会将它们重置为 h L h^L hL w L w^L wL大小。由于运动矢量的原始值指示解码帧中的运动,因此运动矢量将进一步按空间步长重新缩放。

Motion-aided LSTM

作者使用LSTM用于传递特征,这里的LSTM相较于传统的LSTMs有两个改动:一是运动矢量辅助特征变形,二是基于新输入的残差。尽管LSTM中的门控用于特征选择和更新,但当网络移动到其他位置时,网络仍然比较难忘记掉它,这被称为跨帧未对齐的特征。作者提出了一种基于特征变形的运动矢量,用于帮助在运行记忆模块前校准隐藏特征,在相邻帧上将特征变形到当前特征上:

压缩视频目标检测MMNet:Fast Object Detection in Compressed Video

其中 c t + k − 1 c_{t+k-1} ct+k1 h t + k − 1 h_{t+k-1} ht+k1为记忆模块在t+k-1时刻的输出。 c t c_t ct h t h_t ht设置为 f t a t t e n f_t^{atten} ftatten k ∈ [ 1 , n ] k \in [1,n] k[1,n],n为一个GOP中P帧的数量。变形操作W通过在特征图上的每个位置进行双线性变换来完成,它将t+k-1时刻的 p + △ p p+\bigtriangleup p p+p位置映射到t+k时刻的p位置:

压缩视频目标检测MMNet:Fast Object Detection in Compressed Video

其中 △ p \bigtriangleup p p通过t+k时刻的运动矢量获得,q则枚举了特征图 c t + k − 1 c_{t+k-1} ct+k1的所有空间位置,G()为双线性插值核:

压缩视频目标检测MMNet:Fast Object Detection in Compressed Video

传统的LSTMs使用当前时刻完整的帧作为新信息进行训练,在MMNet中,作者使用了残差作为一种新的输入。通过运动矢量可以将之前的特征与当前状态进行匹配,但是当前特征仍然会缺失一些信息。所以视频编码器会计算出残差,其通常也被看作是预测误差,需要被转化然后发送到解码器中。在经过空间对齐之后,残差会被用作信息的补充,它们比完整图像的外观特征更重要,为了更好的将残差从图像级匹配到特征级,作者使用了一个卷积层用于缩放残差值。

在获取到变形特征和残差输入之后,内存可以生成一个新的cell特征,如下:

压缩视频目标检测MMNet:Fast Object Detection in Compressed Video

其中W为需要学习的权重, g t + k g_{t+k} gt+k可以看做是一个选择掩码, c ^ t + k \hat{c}_{t+k} c^t+k是具有互补表示的新信息。 c t + k c_{t+k} ct+k表示将被输入到检测网络的当前帧,然后隐藏特征被生成为:

压缩视频目标检测MMNet:Fast Object Detection in Compressed Video

基于这个框架,可以将以前的特征转换到当前时刻,并且可以被传递到下一步去,知道遇到下一个I帧。最后,一个GOP长度的特征会被输入到检测网络中进行识别。

Detection Network

作者使用了RFCN座位检测网络。

相关文章:

  • 2021-12-16
  • 2021-12-09
  • 2021-07-23
  • 2021-10-04
  • 2022-01-15
  • 2021-12-24
  • 2021-06-07
  • 2021-07-28
猜你喜欢
  • 2021-12-03
  • 2021-12-30
  • 2021-06-14
  • 2021-06-24
  • 2021-05-19
  • 2021-08-22
  • 2022-01-10
相关资源
相似解决方案