2017CVPRSelf-Supervised Learning of Visual Features Through Embedding Images Into Text Topic Spaces

这个工作的背景是无监督学习，也就是现存的网络上有大量数据，如何在不使用人工进行标记的情况下来进行特征提取的学习，是一个未来很有前景的方向，比如网络上无论是社交网站还是wiki百科，都有大量图文并茂的资源，作者的意思就是利用这些”文“来指导“图”的特征提取，不是一般意义上的无监督学习。作者利用自己训练的网络当作特征提取器在分类，目标检测和图文互检索的任务上进行测试，有大量试验，但作者的效果并不是相比所有的无监督方法都要好，摆在实验部分前面的实验效果相对后面更好，具体可以看看论文。

研究内容

无监督条件下训练网络提取视觉特征

主要工作

TextTopicNet

关键思想

利用弱监督的易获得的文本信息辅助

关键工具

LDA (Latent Dirichlet Allocation)

TextTopicNet

2017CVPRSelf-Supervised Learning of Visual Features Through Embedding Images Into Text Topic Spaces
方法其实很简单，分为两步，第一步就是通过LDA来进行topic的学习，然后基于这些topic来进行图片特征提取网络的参数训练。

LDA

2017CVPRSelf-Supervised Learning of Visual Features Through Embedding Images Into Text Topic Spaces

LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。

意思理解上很简单，但是其中的计算过程还是比较复杂的，具体可参看这里。

研究内容

主要工作

关键思想

关键工具

TextTopicNet

LDA

相关工作