show and tell
cnn-lstm结构,cnn部分采用vgg,使用的是vgg的fc2层作为输出图片特征。得到图片特征后,将其输入一个线性层(CNN),得到作为第一个lstm的输入,对于输入句子的每个字,将其与权重参数相乘,输出作为lstm的输入,
模型结构如下,
inference
有两种方法得到输出,一种是直接去概率最大的索引的字作为输出,另一种是beam search,每次输出为前k个概率最大的值。文中采用beam size值为20,相比beam size为1(greedy search),bleu值提高了2.
neural_image_captioning
训练过程
执行Python train.py
结果生成过程
两种方式:
Python evaluator.py
一种是将全部图片转为向量保存下来,然后再跑出描述结果(当数据量较小时使用,占用内存多、速度较快)
Python caption.py
另外一种方式是每次生成一张照片的特征向量,传入模型(当数据量较大的时候使用,占用内存少、速度较慢)
SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning
attention机制包括3种,spatial attention,主要考虑的是图像的feature map的每个位置对生成词的权重; semantic attention,主要考虑的是图像与生成的词之间的关系权重;以及multi-layer attention,采用cnn的多个层的特征
Spatial and Channel-wise Attention CNN
为第层的合成feature,为第t-1个lstm序列输出,为spatial and channel-wise attention函数。为前面卷基层的输出feature map.为attention weights,大小与,相同。
生成第t个词公式为,
L为卷基层的总数。
由于大小与,相同,如果大小为的话,那么attention的计算需要计算量为,k为lstm的隐藏层大小,当feature map很大的时候,计算量将非常大。因此,本文提出来分开学习spatial attention weights,channel-wise attention weights ,
这样,计算量为spatial attention,, channel-wise attention , 。
spatial attention
对于每个生成的词,其仅与图像的部分区域相关。例如,图1中,要生成cake,仅与图像中的cake区域相关。因此,如将图像的所有区域特征用于生成当前的词,可能会导致生成不相干的词。spatial attention机制是将注意力集中于与生成词相关的区域。将V reshape为,,也就是将每个为wh大小的feature map在所有通道上 flaten为向量v。m=W H. 定义如下,
,。
channel-wise attention
将V reshape为,C为feature map的通道个数。
之后对每个通道进行mean pooling,以获得通道feature v,
channel-wise attention
定义如下,
,。
得到两个attention weights后,便可以计算合成feature map X,
Channel-Spatial
Spatial-Channel