核心思想

  这篇论文主要是通过对抗训练文本和图像,是它们学习到共同的特征表示。本论文由四个对抗训练过程组成(详细看损失函数)。图像自身的对抗网络,文本自身的对抗网络,图像对文本的对抗网络、文本对图像的对抗网络。

  图像自身的对抗网络:通过图像卷积学习到到特征向量(不是最终的特征表示,论文中为hi),作为真实数据,重建(也就是decode过程)的特征向量(论文中为ri)作为假数据,来构建对抗网络。该网络主要是使图像特征提取得更精确。
  文本自身的对抗网络:与图像类似。
  图像对文本的对抗网络:图像生成的特征表示(论文中为si)作为真数据,文本生成的特征数据作为假数据,来构建对抗网络,通过训练对抗网络,消除文本和图像特征表示的差异性,使它们生成共同的表示。
  文本对图像的对抗网络:与图像对文本的相似。

网络结构图

跨模态检索CM-GANs: Cross-modal Generative AdversarialNetworks for Common Representation Learning

损失函数

  总的损失函数:
跨模态检索CM-GANs: Cross-modal Generative AdversarialNetworks for Common Representation Learning
  展开:
  图像自身的对抗网络
跨模态检索CM-GANs: Cross-modal Generative AdversarialNetworks for Common Representation Learning
  文本自身的对抗网络
跨模态检索CM-GANs: Cross-modal Generative AdversarialNetworks for Common Representation Learning
  图像对文本的对抗网络:
跨模态检索CM-GANs: Cross-modal Generative AdversarialNetworks for Common Representation Learning
  文本对图像的对抗网络:
跨模态检索CM-GANs: Cross-modal Generative AdversarialNetworks for Common Representation Learning

创新点和缺点

创新:构建四个对抗网络,提高了特征提取进度,和消除不同之间的差异。
缺点:检索精度不高,没有利用标签信息。

相关文章:

  • 2021-11-02
  • 2021-08-14
  • 2021-10-07
  • 2021-10-22
  • 2021-08-26
  • 2022-12-23
  • 2021-12-22
  • 2021-09-01
猜你喜欢
  • 2022-01-12
  • 2021-04-18
  • 2022-01-07
  • 2021-11-19
  • 2021-06-28
  • 2021-07-12
  • 2021-07-15
相关资源
相似解决方案