引言

该篇是发表于CVPR2020年的一篇文章,注意到,在CVPR2020被录用的文章中,研究行人查找方向的所有文章均是中国人
文章设计的网络结构比较简单,只是在通用的端到端模型上加了一个分支用于与端到端分支中重识别部分共享参数。文章实验结果更适用于PRW数据集。该篇文章认为:

  • 目前存在的问题:检测网络和重识别网络共享backbone时,由于感受野的原因,行人特征图包含了许多边框外的信息因此不利于重识别。

该篇文章从另一个角度前向传播的角度发现了一个新的问题,众所周知的一个问题是行人检测与行人重识别的目的不同,导致特征图既不利于检测也不利于重识别,这是从反向传播的角度出发的。

  • 解决方案:增加一个Instance-aware分支,输入为从场景图裁剪的行人图像,主分支分类部分的网络与Instance-aware分支共享参数,从而不必更新网络的参数,并从特征图和预测两个方面分别使用余弦相似性和KL距离保证两个分支的同步。

网络结构

整体的网络结构如图:
Bi-directional Interaction Network for Person Search
作者从两个方面特征层面和预测层面保证分支和主支重识别部分的一致性。

  • 将resnet50分为两部分PartI和PartII。PartI部分采用的是Resnet50的conv1-conv4,经过ROIPooling/ROIAlign之后,特征图再经过PastIIResnet50的conv5,后接GAP。
  • 与其他模型不同的是,ROIPooling/ROIAlign将特征图resize为(1024,14,6)(1024, 14, 6)而不是(1024,14,14)(1024, 14, 14),这是因为标注的边框aspect ratio在0.5到0.25之间。

损失函数

总的损失函数:RPN+重识别(两个分支的OIM)+feature-level(余弦相似性)+prediction-level(KL距离)。

试验结果

Bi-directional Interaction Network for Person Search
Bi-directional Interaction Network for Person Search
从图中可以看出CUHK-SYSU中效果不好,在PRW中效果比较好,高于CNN+Refinement一大截。但是低于当前最好的结果46.8, 87.5(TCTS, CVPR2020).

相关文章: