image caption学习笔记

show and tell

cnn-lstm结构，cnn部分采用vgg,使用的是vgg的fc2层作为输出图片特征。得到图片特征后，将其输入一个线性层（CNN），得到 $x_{-1}$ 作为第一个lstm的输入，对于输入句子的每个字 $s_{t}$ ，将其与权重参数 $w_e$ 相乘，输出作为lstm的输入，

image caption学习笔记

模型结构如下，

image caption学习笔记

inference

有两种方法得到输出，一种是直接去概率最大的索引的字作为输出，另一种是beam search,每次输出为前k个概率最大的值。文中采用beam size值为20,相比beam size为1（greedy search）,bleu值提高了2.

neural_image_captioning

训练过程

执行Python train.py

结果生成过程

两种方式：

Python evaluator.py

一种是将全部图片转为向量保存下来，然后再跑出描述结果（当数据量较小时使用，占用内存多、速度较快）

Python caption.py

另外一种方式是每次生成一张照片的特征向量，传入模型（当数据量较大的时候使用，占用内存少、速度较慢）

SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

attention机制包括3种，spatial attention,主要考虑的是图像的feature map的每个位置对生成词的权重; semantic attention,主要考虑的是图像与生成的词之间的关系权重;以及multi-layer attention,采用cnn的多个层的特征

Spatial and Channel-wise Attention CNN

image caption学习笔记

$X^{l-1}$ 为第 $l-1$ 层的合成feature, $h_{t-1}$ 为第t-1个lstm序列输出， $\phi$ 为spatial and channel-wise attention函数。 $V^l$ 为前面卷基层的输出feature map. $\gamma^l$ 为attention weights，大小与 $V^l$ , $X^l$ 相同。

生成第t个词公式为，

image caption学习笔记

L为卷基层的总数。

由于 $\gamma^l$ 大小与 $V^l$ , $X^l$ 相同，如果大小为 $W^l*H^l*C^l$ 的话，那么attention的计算需要计算量为 $O(W^lH^lC^lk))$ ,k为lstm的隐藏层大小,当feature map很大的时候，计算量将非常大。因此，本文提出来分开学习spatial attention weights $\alpha^l$ ，channel-wise attention weights $\beta^l$ ，

image caption学习笔记

这样，计算量为spatial attention， $O(W^lH^lk))$ ， channel-wise attention ， $O(C^lk))$ 。

spatial attention

对于每个生成的词，其仅与图像的部分区域相关。例如，图1中，要生成cake,仅与图像中的cake区域相关。因此，如将图像的所有区域特征用于生成当前的词，可能会导致生成不相干的词。spatial attention机制是将注意力集中于与生成词相关的区域。将V reshape为 $V=[v_1,v_2,...,v_m]$ , $v_i\in R^C$ ,也就是将每个为wh大小的feature map在所有通道上 flaten为向量v。m=W H. $\phi_s$ 定义如下，