跨模态检索CM-GANs: Cross-modal Generative AdversarialNetworks for Common Representation Learning

核心思想：

这篇论文主要是通过对抗训练文本和图像，是它们学习到共同的特征表示。本论文由四个对抗训练过程组成（详细看损失函数）。图像自身的对抗网络，文本自身的对抗网络，图像对文本的对抗网络、文本对图像的对抗网络。

图像自身的对抗网络：通过图像卷积学习到到特征向量（不是最终的特征表示，论文中为hi），作为真实数据，重建（也就是decode过程）的特征向量(论文中为ri)作为假数据，来构建对抗网络。该网络主要是使图像特征提取得更精确。
文本自身的对抗网络：与图像类似。
图像对文本的对抗网络：图像生成的特征表示（论文中为si）作为真数据，文本生成的特征数据作为假数据，来构建对抗网络，通过训练对抗网络，消除文本和图像特征表示的差异性，使它们生成共同的表示。
文本对图像的对抗网络：与图像对文本的相似。

网络结构图：

跨模态检索CM-GANs: Cross-modal Generative AdversarialNetworks for Common Representation Learning

损失函数：

总的损失函数：
跨模态检索CM-GANs: Cross-modal Generative AdversarialNetworks for Common Representation Learning
展开：
图像自身的对抗网络

文本自身的对抗网络

图像对文本的对抗网络：

文本对图像的对抗网络：

创新点和缺点：

创新：构建四个对抗网络，提高了特征提取进度，和消除不同之间的差异。
缺点：检索精度不高，没有利用标签信息。