【发布时间】:2017-12-09 06:56:28
【问题描述】:
目前我和我的三个朋友正在做一个项目,根据特定图像中的对象生成图像描述(当图像被赋予系统时,必须根据对象和它们之间的关系生成新颖的描述他们)。因此,只需一个人计划识别图像中的对象并使用基于快速区域的 CNN (FRCNN) 对其进行标记。就我而言,我必须通过考虑它们之间的关系,基于这些图像标签(FRCNN 的输出计划作为我的 RNN 的输入)来实现有意义的描述。
目前我正计划实现一个循环神经网络 (RNN) 来生成描述。但是,我怀疑是否可以在仅将一组单词(图像标签名称)作为输入时使用 RNN 生成描述。因为 RNN 主要用于具有序列的用例,如果我只给出标签名称,它是否能够通过考虑它们之间的关系来生成描述?
如果不能,请告诉我什么是最好的实现方式?
PS:我对机器学习很陌生,希望能有一个清晰的想法来找到更好的解决方案。
【问题讨论】:
-
这被称为图像字幕,你读过任何关于它的最新论文吗?
-
是的,我已经阅读了几篇研究文章。我最关注的一个是 Andrej Karpathy 关于“用于生成图像描述的深度视觉语义对齐”的研究。但我遇到的问题是 RNN 是否能够仅根据标签名称生成描述。在许多研究论文中,他们使用 CNN 来提取特征并将该特征集(最后一个隐藏层)与经过训练的语言模型嵌入到一个常见的嵌入模态中以生成描述。
-
我的问题是我无法将 FRCNN 的最后一个隐藏层的输出提供给我的 RNN。因为实现 FRCNN 的人需要将识别的对象输出给用户。据我所知,使用 CNN 识别的对象只能通过 CNN 的最后一层来获取。因此,如果我们移除 CNN 的最后一层,那么该人将无法输出已识别的对象。我说的对吗?
-
在这种情况下,您必须在 FRCNN 和您的 RNN 之间引入一个中间表示。你只需要编码正确的信息。
-
所以你的意思是我必须保存从 FRCNN 提取的特征并将其提供到我的 RNN 中?抱歉,我没有正确理解您的解决方案。
标签: machine-learning neural-network deep-learning conv-neural-network recurrent-neural-network