Infrared-Visible Cross-Modal Person Re-Identification with an X Modality
论文:https://download.csdn.net/download/qq_41967539/12363836
当前的问题及概述:
1,红外和可见光分别包含了许多不同的信息,以往的方法倾向于直接从这两种原始模态中学习跨模态信息。但结果说明这种直接映射并不足以缩小两种模式之间的差距。
为了解决这一问题,本文引入了一个X模态作为辅助,提出了一个x -RGB-IR(XIV) ReID交叉模态学习框架。首先,X模态是由一个简单网络生成的,该网络采用自监督方式学习,其中的标签来自RGB图像。其次,在XIV框架下,跨模态学习由本文提出的跨模态GAP约束来引导,通过可见、X和红外的模态来交换特征等信息。如下图:
上图中,不同的颜色表示不同的id。虚线框中为易匹配为一个类别。(a)由于可见光和红外线模态之间的差距很明显,因此很难进行跨模式匹配;(b)有了X模态,跨模式匹配变得更容易。
2,同时,从可见图像中自动生成标签的X图像提供了额外的自我监督信息,与GAN网络相比,结构更简便,计算量更小,同时基于gan的方法不仅在信道维数上重构信息,而且在空间维度上重构信息,破坏了原有的空间结构信息。相比之下,我们使用更合理的1×1卷积层来学习X模态,这只是从RGB模态重建信道信息。
模型及loss:
该轻量级生成器从可见光和红外图像中吸取知识,输出X模态图像。然后将三种模式输入到权值共享的跨模式特征学习器中。设计了两种模态约束,即跨模态GAP约束(CMG)和模态内GAP约束(MRG),用于正则化特征表示和分类,并在一个公共空间中学习三种模态的交叉模态信息。
2.1 Problem Formulation
通过轻量级生成器从可见光中提取特征,得到X模态:
目标是最小化红外与RGB以及红外与X模态的距离,其中D为欧氏距离:
2.2 X Modality
该非线性轻量级网络包含两个1×1的卷积层和一个ReLU层,第一个1×1卷积层将原始的三通道可视图像映射为单通道图像,ReLU**层提高了系统的非线性表示能力,最后使用另一个1×1卷积层将非线性**的单通道映射为可视化的三通道X模态图像。使得从可见图像中自动生成标签的X图像提供了额外的自我监督信息。
2.3 Weight-sharing Feature Learner
将RGB,X,IR进行三通道输入,在一个共同的特征空间中通过权重共享学习交叉模态信息,通过公式2,计算IR和RGB以及IR和X模态的距离,从而提高训练效果。
2.4Modality Constraints
跨模态约束(CMG) loss Lc 由triplet loss转变而来:
模态内部约束(MRG) LM有triplet loss和交叉熵loss组成:
总loss:
实验:
不同结构比较:
消融实验:
总结:
本文最大的不同点是提取X模态当作连接RGB和红外模态的一种媒介模态,目的是通过IR与X模态的差异和IR和GRB模态的差异的比较进而缩小直接比较IR与RGB差异的难度。通过轻量级生成器将RGB经过1×1卷积+ReLU对颜色等干扰信息进行剔除,可以理解为类灰度化过程,再经过1×1卷积回复空间结构,得到X模态,然后将三种模式输入到权值共享的跨模式特征学习器中。设计了两种模态约束,即跨模态GAP约束(CMG)和模态内GAP约束(MRG),用于正则化特征表示和分类,进而在一个公共空间中学习三种模态的交叉模态信息。