论文阅读：深度监督跨模态检索 Deep Supervised Cross-modal Retrieval, CVPR 2019

Deep Supervised Cross-modal Retrieval, CVPR 2019

摘要

跨模式检索旨在实现跨不同模式的灵活检索。跨模式检索的核心是如何衡量不同类型数据之间的内容相似性。在本文中提出了一种新颖的跨模式检索方法，称为深度监督跨模式检索（Deep Supervised Cross-modal Retrieval, DSCMR）。它旨在找到一个通用的表示空间，在其中可以直接比较来自不同模态的样本。具体来说，DSCMR最小化了标签空间和公共表示空间中的鉴别损失（ discrimination loss），以及监督模型学习的判别特征。此外，它同时最小化模态不变性损失（ modality invariance loss），并使用权重共享策略消除公共表示空间中多媒体数据的跨模态差异，以学习模态不变特征。在四个广泛使用的基准数据集上的综合实验结果表明，该方法在交叉模式学习中有效，并且明显优于最新的交叉模式检索方法。

Introduction

Contribution：

提出了一个监督的跨模态学习结构作为不同模态的桥梁。它可以通过保留语义的区分性和模态的不变性有效学习到公共的表达。
在最后一层开发了两个具有权重共享约束的子网，以学习图像和文本模态之间的交叉模态相关性。此外，模态不变性损失被直接计算到目标函数中，以消除跨模态差异。
应用线性分类器对公共表示空间中的样本进行分类。这样，DSCM-R 最大限度地减少了标签空间和公共表示空间中的辨别损失，从而使学习到的公共表示具有显着性。
进行了很多的实验。

所提方法

论文阅读：深度监督跨模态检索 Deep Supervised Cross-modal Retrieval, CVPR 2019

框架

包括两个子网络——一个是图像模态，另一个是文本模态，端到端训练
对于图像：利用预训练在 ImageNet 的网络提取出图像的 4096 维的特征作为原始的图像高级语义表达。然后后续是几个全连接层，来得到图像在公共空间中的表达。
对于文本：利用预训练在 Google News 上的 Word2Vec 模型，来得到 k 维的特征向量。一个句子可以表示为一个矩阵，然后使用一个 Text CNN 来得到原始的句子高级语义表达。之后也是同样的形式，后面是几个全连接层来得到句子在公共空间中的表达。
为了确保两个子网络能够为图像和文本学到公共的表达，我们使这两个子网络的最后几层共享权重。直觉上这样可以使得同一类的图片和文本生成尽可能相似的表达
最后面是一层全连接层来进行分类
这样以后，跨模态的联系可以很好的学到，并且有区分性的特征也可以同时学到

目标函数

第一个目标是一个分类的 loss ，其中 Y 是label 的 one-hot 表示，计算一下分类结果与 Y 的差别。Frobenius norm 是对应元素的平方和再开方（可以理解成矩阵的 L2 范数）。

论文阅读：深度监督跨模态检索 Deep Supervised Cross-modal Retrieval, CVPR 2019
第二个误差包括三项。其中分别代表模态间的，图像模态的和文本模态的负对数似然。最小化负对数似然相当于最大化概率，这里的概率指的是两个特征属于同一个类别的概率。

论文阅读：深度监督跨模态检索 Deep Supervised Cross-modal Retrieval, CVPR 2019
第三个误差是两种模态公共空间中的距离度量，最终的损失函数形式是上述三者的组合。

论文阅读：深度监督跨模态检索 Deep Supervised Cross-modal Retrieval, CVPR 2019
损失函数思想的总结：

提取出特征以后，经过全连接层进行分类，有一个分类的损失
第二部分的损失函数是一个分类的函数，它的过程是首先计算两个向量的余弦相似度，然后经过 sigmoid ，把它变成一个概率值，然后使得同一类的两个向量表达得到的概率值尽可能大
第三部分的损失是使得两种模态尽可能相似

伪代码

论文阅读：深度监督跨模态检索 Deep Supervised Cross-modal Retrieval, CVPR 2019

实现细节

两个全连接层，第一个隐含单元数目 2048，第二个是 1024。第二层全连接是参数共享的。