论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answer

1. 引言

在image captioning和VQA中为了生成搞质量的输出,需要精细的视觉处理甚至多步推导。所以,视觉注意机制被广泛的应用。

两个定义:

  1. top-down:nonvisual or task-specific context
  2. bottom-up:purely visual feed-forward attention mechanisms

在image captioning和VQA中大部分注意机制为top-down,这种方法很少考虑需要注意的区域是如何确定的。如Figure 1的左图。但是,关注图像中的显著物体和区域有助于生成更加生动自然的图像描述。

综上所述,本文提出了一种bottom-up和top-down的联合注意机制。

2. 模型

2.1 bottom-up attention model

运用Faster R-CNN(bottom-up attention)生成一系列的空间图像特征
论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answer

Faster R-CNN

Faster R-CNN通过两步实现目标检测。

  1. RPN(Region Proposal Network)
    一个小卷积在卷积网络中间层滑动,在每一个空间位置,生成一个未知类的对象的分和一个改进anchor boxes得到的bounding box,利用非极大值抑制获得一系列box proposals。
    非极大值抑制:https://www.cnblogs.com/makefile/p/nms.html
  2. 第二阶段运用region of interest (RoI) pooling为每个box proposal抓取14X14的特征图。然后这些特征图输入到CNN最后基层中,输出分类分数和bounding box。

Faster R-CNN详见:https://zhuanlan.zhihu.com/p/31426458

2.2 captioning model

caption生成模型由两个LSTM组成。第一层为视觉注意层,第二层为语言生成层。
论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answer

2.2.1 Top-Down Attention LSTM

每个时间步骤,注意LSTM层的输入为:
论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answer
其中,论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answer
第一层的注意LSTM最终生成注意权重
论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answer
论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answer

3.2.2 language LSTM

输入:论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answer
在每个时间步骤,可能的输出单词的条件分布为:
论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answer
完全的序列输出分布为:
论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answer

相关文章: