ASG: CVPR2020

下载链接
吴琦老师组的新作, 一作是人大的博士生陈师哲.

  • 动机
    现有的方法与用户交互性差, 生成的句子多样性低, 不考虑用户感兴趣的内容.
  • 贡献
  1. 提出ASG(抽象场景图), 可以以细粒度的方式设定一个描述物体的"模式".
  2. 根据给定的ASG, 能够识别ASG中的节点并生成图像描述.
  3. 对于没有ASG标注的数据集, 可以自动生成ASG标注.
  • 方法
    整体框架如下:
    2019-2020年, image captioning论文汇总
  1. ASG
    ASG中的节点共分为三类, object, attribute 和 relationship. 可以根据用户的感兴趣程度自定义ASG.
  2. ASG2Caption
    2.1 Role-aware Graph Encoder. 对于给定的image和ASG, 首先经过Role-aware Graph Encoder (角色感知编码器) 进行编码, 这部分通过role-aware node embedding (角色感知节点嵌入) 和MR-GCN (多关系-图卷积神经网络) 实现. 角色感知节点嵌入在文中给出了计算过程, 使用MR-GCN是为了结合每个节点的的相邻节点的上下文信息, 来更好的理解节点的语义和角色.

    2.2 Graph-based Attention. 使用MR-GCN对图编码后, 我们需要同时考虑编码信息中的语义信息和图结构信息. 语义信息反映了图中的实际语义, 图结构信息反映了ASG的结构. 本文为了同时考虑这两种信息, 使用了两种不同的注意力, 分别为Graph Content Attention (图语义注意力) 和Grpah Flow Attention (图流向注意力). 并在最后进行了融合.

    2.3 Graph Updating. 用于对图节点进行更新, 动态记录图节点的访问状态.
  • 实验
    消融实验
    2019-2020年, image captioning论文汇总
    在不同baseline上添加ASG后的实验结果对比
    2019-2020年, image captioning论文汇总
    和state-of-the-art的对比
    2019-2020年, image captioning论文汇总
    不同ASG生成的结果2019-2020年, image captioning论文汇总2019-2020年, image captioning论文汇总

UIC: CVPR2019

下载链接
出自腾讯AI实验室

  • 动机
    2019-2020年, image captioning论文汇总
  • 贡献
  • 方法
    2019-2020年, image captioning论文汇总
    2019-2020年, image captioning论文汇总
  • 实验
    2019-2020年, image captioning论文汇总
    2019-2020年, image captioning论文汇总
    2019-2020年, image captioning论文汇总
    2019-2020年, image captioning论文汇总

SGAE: CVPR2019

下载链接
南洋理工大学张含望老师组的工作.

  • 动机
  • 贡献
  • 方法
  • 实验

CNM: ICCV2019

下载链接
南洋理工大学张含望老师组的工作.

  • 动机
    动机可以用下图表示. 由于在训练过程中, 数据集内不同单词的出现频率并不相同, 会导致学到的模型存在bias, 即: 预测训练集中出现频率多的词的概率较大.
    2019-2020年, image captioning论文汇总
  • 贡献
  1. 本文提出了第一个用于image captioning的module network.
  2. 本文提出了在partially observed sentences情况下进行有效的模块搭配训练的方法.
  3. 使用本文方法后, 实验结果有显著提升, 本文方法是一个通用且有效的方法.
  • 方法
    本文的整体框架如图所示:
    2019-2020年, image captioning论文汇总
    对于输入的image, 首先使用CNN进行特征提取, 然后将CNN特征转化到四个不同的特征集, 分别是: Object, Attribute, Relation, Function. 其中, Object中包含物体的类别, Attribute包含一些形容词, Relation包含一些物体之间的相互作用, 如: on, between等, Function包含一些功能词, 如: a, an等.

    然后,将转化后的四类特征输入到Controller, 其内部具体的操作如下图所示:
    2019-2020年, image captioning论文汇总
    首先, 使用三个网络结构相同, 但不共享权值的网络得到三类Attention, 具体的操作如公式(7)所示. 然后, 经过LSTM和Softmax对四类转化特征生成weights, 即上图中的"Soft weights generation"部分, 这部分的具体操作如公式(8)所示, 其中, c代表RNN网络的输出. 最后, 即得到了融合后的特征.
    2019-2020年, image captioning论文汇总
    2019-2020年, image captioning论文汇总
    和VQA任务不同的是, 在image captioning任务中, 只有partially observed sentences是可见的. 为了更好的进行reasoning, 将decoder部分重复M次, 尽量观察到更多的sentences, 来得到和图片信息更加相关的caption.
  • 实验
    2019-2020年, image captioning论文汇总
    2019-2020年, image captioning论文汇总
    本文存在的问题
    2019-2020年, image captioning论文汇总

相关文章:

  • 2021-12-10
  • 2021-05-27
  • 2022-01-05
  • 2021-06-19
  • 2021-08-07
  • 2021-11-22
  • 2021-08-11
  • 2021-09-20
猜你喜欢
  • 2021-05-30
  • 2021-04-26
  • 2022-12-23
  • 2021-07-26
  • 2022-01-01
  • 2021-04-25
  • 2021-10-02
相关资源
相似解决方案