论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answer

在image captioning和VQA中为了生成搞质量的输出，需要精细的视觉处理甚至多步推导。所以，视觉注意机制被广泛的应用。

两个定义：

在image captioning和VQA中大部分注意机制为top-down，这种方法很少考虑需要注意的区域是如何确定的。如Figure 1的左图。但是，关注图像中的显著物体和区域有助于生成更加生动自然的图像描述。

综上所述，本文提出了一种bottom-up和top-down的联合注意机制。

运用Faster R-CNN（bottom-up attention）生成一系列的空间图像特征
论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answer

Faster R-CNN通过两步实现目标检测。

RPN(Region Proposal Network)
一个小卷积在卷积网络中间层滑动，在每一个空间位置，生成一个未知类的对象的分和一个改进anchor boxes得到的bounding box，利用非极大值抑制获得一系列box proposals。
非极大值抑制：https://www.cnblogs.com/makefile/p/nms.html
第二阶段运用region of interest (RoI) pooling为每个box proposal抓取14X14的特征图。然后这些特征图输入到CNN最后基层中，输出分类分数和bounding box。

Faster R-CNN详见：https://zhuanlan.zhihu.com/p/31426458

caption生成模型由两个LSTM组成。第一层为视觉注意层，第二层为语言生成层。
论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answer

每个时间步骤，注意LSTM层的输入为：
论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answer
其中，
第一层的注意LSTM最终生成注意权重

输入：论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answer
在每个时间步骤，可能的输出单词的条件分布为：

完全的序列输出分布为：