文章目录
1. Introduction
本论文提出一种基于soft相似度度量的无监督ReID算法。当前无监督ReID的一个重要方向是利用聚类获得伪标签后对网络进行再训练,之后用再训练后的网络再提取特征进行聚类获得伪标签,也就是迭代聚类获得伪标签和再训练两个过程。作者认为聚类一方面难以确定簇的数量而错误分配伪标签,另一方面要计算的损失由于缺少标签难以量化。所以作者提出了一种softened similarity learning来代替聚类,与再训练交替进行。
创新点
- 提出一种soft相似度度量的无监督ReID算法。
- 提出CCE(解决跨镜头的变化),并将其与局部特征进行融合。
2. Methods
2.1 算法框架总览
该算法总体框架分为两个部分:初始化部分和再训练部分。
初始化部分
将行人图像输入网络进行hard label(one-hot标签)训练。
再训练部分
再训练部分包括三个小步骤,在完成初始化部分后,迭代进行三个步骤。
- 通过CNN得到所有行人图像的特征。
- 利用特征计算其相似度(这里的相似度定义为两点之间的距离),从而调整特征的分布得到softened label。
- 利用得到的softened label作为标签对CNN网络进行再训练。
2.2 初始化部分
符号定义
目标域图片
X
X
X:包含N张
x
i
x_i
xi图像。
目标域标签
y
i
y_i
yi:认为每一张图像为一类,故有N类。
CNN网络:
φ
φ
φ
提取的特征:
φ
(
θ
,
x
)
φ(θ,x)
φ(θ,x) ,θ为网络的参数。
使用在ImageNet上预训练过的ResNet50网络作为CNN网络。移除最后的全连接层。
将所有图像输入网络获得所有图像的特征构建一个
N
∗
n
φ
(
特
征
维
度
)
N*n_φ(特征维度)
N∗nφ(特征维度)的矩阵
V
V
V,将其作为一个无需参数的分类器,即将输入图像
x
x
x的特征
v
v
v与矩阵的每一行
V
i
V_i
Vi做内积并softmax处理作为该分类的分数。
其中的
τ
τ
τ是一个超参,用于调节softmax的大小差异程度。这里定义一个损失函数
其中
t
(
y
j
)
t(y_j)
t(yj)z在
y
j
y_j
yj为ground truth分类时为1,其他时候为0。
t
(
y
j
)
t(y_j)
t(yj)其实相当于标签作用,在初始化阶段
t
(
y
j
)
t(y_j)
t(yj)只有在ground truth时才为1,为硬标签。
初始化训练25个epoch。
2.3 再训练部分
2.3.1 融合局部特征和CCE的相似度度量(可以理解为一种距离度量方法)
全局特征的相似度度量
定义两个图像之间的相似度为它们特征之间的欧式距离,即
局部特征的相似度度量
将两个行人图像特征图水平划分为p块,对于每一块做水平池化得到p块局部特征,定义两个图像局部特征的相似度为
跨摄像头激励(Cross Camera Encouragement,CCE)
作者认为由于不同的摄像头之间的变化相同id的行人图像相似度反而低于同一摄像头下的不同id的行人图像。为了缩小摄像头间差异,定义CCE为
它能够减少同一摄像头下的图像相似度,增加不同摄像头下的图像相似度,从而加强网络发现不同摄像头下相似行人图像的能力。
总体相似度
将上述三者相似度相结合得到最终相似度。
2.3.2 对网络进行再训练
在利用CNN网络提取数据库所有行人图像的特征后,通过2.3.1所提到的
D
(
x
a
,
x
b
)
D(x_a,x_b)
D(xa,xb)计算得到相似度矩阵。
对于任意一个点
x
i
x_i
xi,能够从矩阵中获得它与其他N-1个点的相似度,找到关于这个点的k近邻,便获得
x
i
x_i
xi的相关图像
X
i
r
e
l
i
a
b
l
e
X^{reliable}_i
Xireliable(内含k张)和其标签
Y
i
r
e
l
i
a
b
l
e
Y^{reliable}_i
Yireliable。
定义softened label为
它不仅考虑了ground truth分类,还考虑了相关的k个分类,能够在一定程度上减少伪标签错误出现的问题。
根据
t
(
y
j
)
t(y_j)
t(yj)定义损失函数