2019-2020年, image captioning论文汇总

目录

ASG: CVPR2020
UIC: CVPR2019
SGAE: CVPR2019
CNM: ICCV2019

ASG: CVPR2020

下载链接
吴琦老师组的新作, 一作是人大的博士生陈师哲.

动机
现有的方法与用户交互性差, 生成的句子多样性低, 不考虑用户感兴趣的内容.
贡献

提出ASG(抽象场景图), 可以以细粒度的方式设定一个描述物体的"模式".
根据给定的ASG, 能够识别ASG中的节点并生成图像描述.
对于没有ASG标注的数据集, 可以自动生成ASG标注.

方法
整体框架如下:

ASG
ASG中的节点共分为三类, object, attribute 和 relationship. 可以根据用户的感兴趣程度自定义ASG.
ASG2Caption
2.1 Role-aware Graph Encoder. 对于给定的image和ASG, 首先经过Role-aware Graph Encoder (角色感知编码器) 进行编码, 这部分通过role-aware node embedding (角色感知节点嵌入) 和MR-GCN (多关系-图卷积神经网络) 实现. 角色感知节点嵌入在文中给出了计算过程, 使用MR-GCN是为了结合每个节点的的相邻节点的上下文信息, 来更好的理解节点的语义和角色.

2.2 Graph-based Attention. 使用MR-GCN对图编码后, 我们需要同时考虑编码信息中的语义信息和图结构信息. 语义信息反映了图中的实际语义, 图结构信息反映了ASG的结构. 本文为了同时考虑这两种信息, 使用了两种不同的注意力, 分别为Graph Content Attention (图语义注意力) 和Grpah Flow Attention (图流向注意力). 并在最后进行了融合.

2.3 Graph Updating. 用于对图节点进行更新, 动态记录图节点的访问状态.

实验
消融实验

在不同baseline上添加ASG后的实验结果对比

和state-of-the-art的对比

不同ASG生成的结果

UIC: CVPR2019

下载链接
出自腾讯AI实验室

动机
贡献
方法
实验

SGAE: CVPR2019

下载链接
南洋理工大学张含望老师组的工作.

动机
贡献
方法
实验

CNM: ICCV2019

下载链接
南洋理工大学张含望老师组的工作.

动机
动机可以用下图表示. 由于在训练过程中, 数据集内不同单词的出现频率并不相同, 会导致学到的模型存在bias, 即: 预测训练集中出现频率多的词的概率较大.
贡献

本文提出了第一个用于image captioning的module network.
本文提出了在partially observed sentences情况下进行有效的模块搭配训练的方法.
使用本文方法后, 实验结果有显著提升, 本文方法是一个通用且有效的方法.

方法
本文的整体框架如图所示:

对于输入的image, 首先使用CNN进行特征提取, 然后将CNN特征转化到四个不同的特征集, 分别是: Object, Attribute, Relation, Function. 其中, Object中包含物体的类别, Attribute包含一些形容词, Relation包含一些物体之间的相互作用, 如: on, between等, Function包含一些功能词, 如: a, an等.

然后,将转化后的四类特征输入到Controller, 其内部具体的操作如下图所示:

首先, 使用三个网络结构相同, 但不共享权值的网络得到三类Attention, 具体的操作如公式(7)所示. 然后, 经过LSTM和Softmax对四类转化特征生成weights, 即上图中的"Soft weights generation"部分, 这部分的具体操作如公式(8)所示, 其中, c代表RNN网络的输出. 最后, 即得到了融合后的特征.

和VQA任务不同的是, 在image captioning任务中, 只有partially observed sentences是可见的. 为了更好的进行reasoning, 将decoder部分重复M次, 尽量观察到更多的sentences, 来得到和图片信息更加相关的caption.
实验

本文存在的问题

相关文章：

2021-12-10
2021-05-27
2022-01-05
2021-06-19
2021-08-07
2021-11-22
2021-08-11
2021-09-20

猜你喜欢

2021-05-30
2021-04-26
2022-12-23
2021-07-26
2022-01-01
2021-04-25
2021-10-02

相关资源

下载 2023-01-15
下载 2022-12-06
下载 2023-02-01

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode