ASG: CVPR2020
下载链接
吴琦老师组的新作, 一作是人大的博士生陈师哲.
- 动机
现有的方法与用户交互性差, 生成的句子多样性低, 不考虑用户感兴趣的内容. - 贡献
- 提出ASG(抽象场景图), 可以以细粒度的方式设定一个描述物体的"模式".
- 根据给定的ASG, 能够识别ASG中的节点并生成图像描述.
- 对于没有ASG标注的数据集, 可以自动生成ASG标注.
- 方法
整体框架如下:
- ASG
ASG中的节点共分为三类, object, attribute 和 relationship. 可以根据用户的感兴趣程度自定义ASG. - ASG2Caption
2.1 Role-aware Graph Encoder. 对于给定的image和ASG, 首先经过Role-aware Graph Encoder (角色感知编码器) 进行编码, 这部分通过role-aware node embedding (角色感知节点嵌入) 和MR-GCN (多关系-图卷积神经网络) 实现. 角色感知节点嵌入在文中给出了计算过程, 使用MR-GCN是为了结合每个节点的的相邻节点的上下文信息, 来更好的理解节点的语义和角色.
2.2 Graph-based Attention. 使用MR-GCN对图编码后, 我们需要同时考虑编码信息中的语义信息和图结构信息. 语义信息反映了图中的实际语义, 图结构信息反映了ASG的结构. 本文为了同时考虑这两种信息, 使用了两种不同的注意力, 分别为Graph Content Attention (图语义注意力) 和Grpah Flow Attention (图流向注意力). 并在最后进行了融合.
2.3 Graph Updating. 用于对图节点进行更新, 动态记录图节点的访问状态.
- 实验
消融实验
在不同baseline上添加ASG后的实验结果对比
和state-of-the-art的对比
不同ASG生成的结果
UIC: CVPR2019
下载链接
出自腾讯AI实验室
- 动机
- 贡献
- 方法
- 实验
SGAE: CVPR2019
下载链接
南洋理工大学张含望老师组的工作.
- 动机
- 贡献
- 方法
- 实验
CNM: ICCV2019
下载链接
南洋理工大学张含望老师组的工作.
- 动机
动机可以用下图表示. 由于在训练过程中, 数据集内不同单词的出现频率并不相同, 会导致学到的模型存在bias, 即: 预测训练集中出现频率多的词的概率较大. - 贡献
- 本文提出了第一个用于image captioning的module network.
- 本文提出了在partially observed sentences情况下进行有效的模块搭配训练的方法.
- 使用本文方法后, 实验结果有显著提升, 本文方法是一个通用且有效的方法.
- 方法
本文的整体框架如图所示:
对于输入的image, 首先使用CNN进行特征提取, 然后将CNN特征转化到四个不同的特征集, 分别是: Object, Attribute, Relation, Function. 其中, Object中包含物体的类别, Attribute包含一些形容词, Relation包含一些物体之间的相互作用, 如: on, between等, Function包含一些功能词, 如: a, an等.
然后,将转化后的四类特征输入到Controller, 其内部具体的操作如下图所示:
首先, 使用三个网络结构相同, 但不共享权值的网络得到三类Attention, 具体的操作如公式(7)所示. 然后, 经过LSTM和Softmax对四类转化特征生成weights, 即上图中的"Soft weights generation"部分, 这部分的具体操作如公式(8)所示, 其中, c代表RNN网络的输出. 最后, 即得到了融合后的特征.
和VQA任务不同的是, 在image captioning任务中, 只有partially observed sentences是可见的. 为了更好的进行reasoning, 将decoder部分重复M次, 尽量观察到更多的sentences, 来得到和图片信息更加相关的caption. - 实验
本文存在的问题