论文:Eliminating Background-bias for Robust Person Re-identificationhttps://www.researchgate.net/publication/329754383_Eliminating_Background-bias_for_Robust_Person_Re-identification
年份:2018
文章目录
1.简介
最先进的方法主要是利用基于深度学习的方法来学习视觉特征来描述人的外表。 然而,现有的深度学习模型有偏执,无法捕捉到行人图像背景与表征之间的太多相关性。 因此设计了一系列的实验与新的cre-ated数据集,以验证背景信息的影响。 为了解决背景偏差问题,提出了一种基于行人解析映射的person-region guided pooling深神经网 络来学习更多的 discriminative person-part 特征,并提出用随机背景的人图像来增强训练数据。 大量的实验证明该方法的鲁棒性和有效性。
2.背景介绍
以往的方法通常会先将行人图像转化为特征向量,然后通过计算特征向量之间的距离来获得两张图片的相似度。但是这样做存在一些问题:
- 现有的方法通常是将整张图像输入,并且认为所有的像素拥有相同的影响。但是这么做会引入背景噪声。
- 现存的数据集通常是在少有的几个摄像头下进行的数据采集,背景固定,缺乏广泛性
- 缺少一种针对于固定人像区域的提取机制
针对上文问题,本文提出了deep human parsing network用来进行背景和前景分离,此外还基于分离网络提出了深度网络用于ReLD。
那么背景问题对模型的影响是怎样的呢?
直观通过上图感受背景带来的影响:第一张图是原图,第二张图排序是对的,他和第一张图是相似的,但是第三张图和第四张图的排序却出现了错误,这里将同一背景下的不同人与不同背景下的同一人发生了排序混淆,说明背景的存在对于ReID是存在影响的。所以作者提出要消除ReID问题中背景的影响。
为了更好的实现方法和验证背景对模型的影响,作者创建了数据集。
作者基于CUHK03 ,Market-1501这两个数据集自己造出了四种不同的数据集,生成数据集是基于参考文献中的人像分割模型。四种新的数据集展示如下:a就是没有经过任何变化的原图;b是对背景进行平均值处理(用平均像素值填充前景(人)区域,并保持背景(上下文)区域不变);c是对背景进行随机值处理(保持前景区域不变,并用平均像素值(表示为meanbackground)填充背景区域;);d是对前景进行均值处理(第四个保持前景,并用来自Internet的100个随机收集的图像之一(表示为随机背景)替换背景)。通过训练深度神经网络对每个联合数据集进行重新识别,可以更好地研究背景信息的影响。
然后作者通过实验,验证背景对于模型的影响,其结果如上图所示。
在上图a中,可以看出这个实验是利用原始数据进行训练,分别用所有的数据集进行测试的结果展示,左右两边分别是在CUHK03 和Market-1501这两个数据集上的表现。我们可以看到,尽管mean-backgroud和random-background这两种与原始图像有着相同的前景,但是top1的正确率却同时发生了一个较大的下滑,由此我们可以得出这样的结论,尽管在original数据上获得了较高的准确性,但是他的这个判断依据,有一部分可能是由于相同的背景,判断出来的,如果换一组不同背景的图像,也许就会发现这个模型的适应性很差。
同时观察C组图像,可以发现用mean-background数据训练出来的模型,在各项数据上测试出来的top1准确度相比于a中的数据都有一部分的下滑,但是这部分下滑是可以理解的,因为可以判断的特征只剩下前景了,所以肯定会造成模型的准确度变化,但是对于这个模型,即使换一组不同背景的输入,模型的性能也不会发生太大的变化,模型用一点准确性的牺牲换来了在所有数据集上的鲁棒性。
此外通过只通过背景训练模型,可以发现在original以及其他几个数据及上都获得了随机猜测要高得多的正确率,这也就证实了作者的猜想,在这几个数据集中,由于背景的相似性,通常会对模型造成一定的倾向影响。
3.提出的网络模型
为了解决已发现的背景偏差问题,我们提出了一种基于Person-region 解析网络生成的 Person-region 解析映射的Person-region 引导池机制的深度神经网络。 我们还增加了随机背景的训练图像,以实现对背景变化的鲁棒性。
从图中可以看出,该网路分为三部分, whole-person main network, the person parsing network, and the person-region guided pooling sub-network.
3.1 whole-person main network
whole-person main network旨在捕获人的整体外观(图4的上部)。 它以尺寸为96×96×3的人物图像作为输入。 图像首先由具有5×5内核的三个卷积层处理,再由2×2最大合并层处理。 然后将生成的64×48×48特征图输入到三个初始模块。 每个启动模块将空间分辨率降低一半,由两个模块组成,其中第一个模块中有四个卷积层,第二个模块中有三个卷积层,输入和输出通道数相同。 最后一个初始模块之后是6×6平均池化层和完全连接的层,以输出最终的256维特征向量。 在主网络中,每个非线性操作之后,ReLU均用作具有批归一化功能的**函数。
3.2 Person parsing network
The person-region parsing network 为每个输入的行人图像生成部分区域解析图。 每个人被分为三个区域,即头部,上躯干和下躯干区域。 每个区域的解析图都将转换为二进制解析掩码,以指导行人外观特征图的合并。 首先对每个二进制解析掩码进行下采样,然后通过逐元素乘法将其用于选通来自主网络的Inception-1块的输出特征图。 因此,选通后得到的三个特征图分别对应于头部,上躯干和下躯干区域的视觉特征(图4的左侧)。 人员区域解析网络是单独进行预训练的,并且在训练整个网络时固定其参数。 图5显示了网络解析掩码的示例。
在我们提出的框架中,人员解析网络用于两个目的。
- 第一种是生成前景-背景二进制解析图。
如前一节所述,背景解析图可用于将人图像的背景区域替换为随机选择的图像,以创建随机背景数据集。 - 第二个目的是生成用于人的区域,即头部,上躯干和下躯干区域的解析图,其可以在整个网络中用于汇集来自特定人区域的特征。
我们的解析网络的结构与全人主网络相似,只是对输出解析图进行了较小的修改,使其空间尺寸与输入的解析度相同,并实现了更好的解析性能。
1)由于解析问题的复杂性,我们将网络中每个卷积层中的通道数量加倍。
2)特征学习网络中的平均池层被具有6×6、3×3、2×2内核的金字塔池网络取代,以捕获来自不同接受域的上下文信息。 然后,将三个合并的特征图上采样到相同的96×96大小,并沿通道维级联。 通过最终的1×1卷积层和交叉熵分类损失获得4类解析图(背景+ 3个前景区域)。
3.3 Person-region guided pooling network
Person-region guided pooling network从主网络的特征图获得每个行人的区域的视觉特征(请参见图4的下部)。 子网具有与三个人区域相对应的三个分支,这些分支将主网络中Inception-1模块的门控输出作为输入,并具有Inpcetion-2,Inception-3,全局池和完全连接层的相同结构。 作为主要网络。 但是,这三个分支对于不同的人员区域具有独立的参数,每个参数都会为相应区域生成256维视觉特征。 通过利用提出的引导池子网络,每个分支都被迫专注于特定区域,以学习其相应的视觉特征,以进行更准确的重新识别。
然后,将主网络的256-d特征和子网络的三个256-d特征连接起来,并通过完全连接的层转换为最终的256-d特征。 这样,视觉特征既可以捕捉整个人,也可以捕捉人所在区域的外观。 添加最后的线性层,并对整个网络进行训练,以根据交叉熵损失对人的身份进行分类。 经过训练收敛后,可以使用最上面第二个256-d视觉特征来表示每个人的外观,并且将视觉相似度计算为此类256-d特征之间的余弦距离。
3.3 Random-background based data augmentation
但是上述的模型只是讲了本文的方法,还是没有最直接的面对本文中的背景bias。最后解决这个问题的办法是,通过随机背景的方式对数据进行增广。
过程如下采用的是online数据增广,并且设定一个超参数p用来表示将原始背景更换为随机背景的概率。对于一个输入,首先通过分离网络生成他的掩图,然后在训练过程中,如果确定要更换背景,就会从真实场景中采集的一百个背景库中随机选取一张,并且随机选取一个区域进行替换,最后的输出图像还可以表示为这样的公式:
如果不替换,就输入原图片。
online的数据增广,那么有offline的数据增广嘛
有固定按照例如1比1的比例进行数据替换,这就是offline的替换方式,那么效果如何呢,看表: