[CVPR2020]Unsupervised Person Re-identification via Softened Similarity Learning

文章目录

1. Introduction
2. Methods
3. Experiments

1. Introduction

本论文提出一种基于soft相似度度量的无监督ReID算法。当前无监督ReID的一个重要方向是利用聚类获得伪标签后对网络进行再训练，之后用再训练后的网络再提取特征进行聚类获得伪标签，也就是迭代聚类获得伪标签和再训练两个过程。作者认为聚类一方面难以确定簇的数量而错误分配伪标签，另一方面要计算的损失由于缺少标签难以量化。所以作者提出了一种softened similarity learning来代替聚类，与再训练交替进行。
创新点

提出一种soft相似度度量的无监督ReID算法。
提出CCE（解决跨镜头的变化），并将其与局部特征进行融合。

2. Methods

2.1 算法框架总览

[CVPR2020]Unsupervised Person Re-identification via Softened Similarity Learning
该算法总体框架分为两个部分：初始化部分和再训练部分。
初始化部分
将行人图像输入网络进行hard label（one-hot标签）训练。
再训练部分
再训练部分包括三个小步骤，在完成初始化部分后，迭代进行三个步骤。

通过CNN得到所有行人图像的特征。
利用特征计算其相似度（这里的相似度定义为两点之间的距离），从而调整特征的分布得到softened label。
利用得到的softened label作为标签对CNN网络进行再训练。

2.2 初始化部分

符号定义
目标域图片 X X X：包含N张 x i x_i xi图像。
目标域标签 y i y_i yi:认为每一张图像为一类，故有N类。
CNN网络： φ φ φ
提取的特征： φ （ θ , x ） φ（θ,x） φ（θ,x），θ为网络的参数。
使用在ImageNet上预训练过的ResNet50网络作为CNN网络。移除最后的全连接层。
将所有图像输入网络获得所有图像的特征构建一个 N ∗ n φ （特征维度） N*n_φ（特征维度） N∗nφ（特征维度）的矩阵 V V V，将其作为一个无需参数的分类器，即将输入图像 x x x的特征 v v v与矩阵的每一行 V i V_i Vi做内积并softmax处理作为该分类的分数。
[CVPR2020]Unsupervised Person Re-identification via Softened Similarity Learning
其中的 τ τ τ是一个超参，用于调节softmax的大小差异程度。这里定义一个损失函数

其中 t ( y j ) t(y_j) t(yj)z在 y j y_j yj为ground truth分类时为1,其他时候为0。
t ( y j ) t(y_j) t(yj)其实相当于标签作用，在初始化阶段 t ( y j ) t(y_j) t(yj)只有在ground truth时才为1，为硬标签。
初始化训练25个epoch。

2.3 再训练部分

2.3.1 融合局部特征和CCE的相似度度量（可以理解为一种距离度量方法）

全局特征的相似度度量
定义两个图像之间的相似度为它们特征之间的欧式距离，即
[CVPR2020]Unsupervised Person Re-identification via Softened Similarity Learning

局部特征的相似度度量
将两个行人图像特征图水平划分为p块，对于每一块做水平池化得到p块局部特征，定义两个图像局部特征的相似度为
[CVPR2020]Unsupervised Person Re-identification via Softened Similarity Learning
跨摄像头激励（Cross Camera Encouragement,CCE）
作者认为由于不同的摄像头之间的变化相同id的行人图像相似度反而低于同一摄像头下的不同id的行人图像。为了缩小摄像头间差异，定义CCE为
[CVPR2020]Unsupervised Person Re-identification via Softened Similarity Learning
它能够减少同一摄像头下的图像相似度，增加不同摄像头下的图像相似度，从而加强网络发现不同摄像头下相似行人图像的能力。
总体相似度
将上述三者相似度相结合得到最终相似度。
[CVPR2020]Unsupervised Person Re-identification via Softened Similarity Learning

2.3.2 对网络进行再训练

在利用CNN网络提取数据库所有行人图像的特征后，通过2.3.1所提到的 D ( x a , x b ) D(x_a,x_b) D(xa,xb)计算得到相似度矩阵。
对于任意一个点 x i x_i xi，能够从矩阵中获得它与其他N-1个点的相似度，找到关于这个点的k近邻，便获得 x i x_i xi的相关图像 X i r e l i a b l e X^{reliable}_i Xireliable（内含k张）和其标签 Y i r e l i a b l e Y^{reliable}_i Yireliable。
定义softened label为
[CVPR2020]Unsupervised Person Re-identification via Softened Similarity Learning
它不仅考虑了ground truth分类，还考虑了相关的k个分类，能够在一定程度上减少伪标签错误出现的问题。
根据 t ( y j ) t(y_j) t(yj)定义损失函数

3. Experiments

[CVPR2020]Unsupervised Person Re-identification via Softened Similarity Learning