这个工作的背景是无监督学习,也就是现存的网络上有大量数据,如何在不使用人工进行标记的情况下来进行特征提取的学习,是一个未来很有前景的方向,比如网络上无论是社交网站还是wiki百科,都有大量图文并茂的资源,作者的意思就是利用这些”文“来指导“图”的特征提取,不是一般意义上的无监督学习。作者利用自己训练的网络当作特征提取器在分类,目标检测和图文互检索的任务上进行测试,有大量试验,但作者的效果并不是相比所有的无监督方法都要好,摆在实验部分前面的实验效果相对后面更好,具体可以看看论文。
研究内容
无监督条件下训练网络提取视觉特征
主要工作
TextTopicNet
关键思想
利用弱监督的易获得的文本信息辅助
关键工具
LDA (Latent Dirichlet Allocation)
TextTopicNet
方法其实很简单,分为两步,第一步就是通过LDA来进行topic的学习,然后基于这些topic来进行图片特征提取网络的参数训练。
LDA
LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。
意思理解上很简单,但是其中的计算过程还是比较复杂的,具体可参看这里。
相关工作
Learning to see by moving. (ICCV, 2015)
Unsupervised visual representation learning by context pediction. (ICCV, 2015)
Ambient sound provides supervison for visual learning. (ECCV, 2016)
Unsupervised learning of visual representations using videos. (CVPR, 2015)