视觉问答(VQA)的关键解决方案在于如何融合从输入图像和问题中提取的视觉和语言特征。

  1. 传统方法

       根据数据集中训练集答案出现的 次数设定一个阈值,保留出现过一定次数的答案,作为答案 的候选选项形成一个答案候选集。然后把每一个候选答案设 置为不同的标签,将 VQA 问题作为一个分类问题来解决。 该模型回答的答案大多都与图像无关并且随着数据集的不同 会回答差别很大的答案。

SWQA模型:

视觉问答05day

        A 为答案,a为答案候选集中的一个答案,W代表图像(可以是原始图像或是图像区域特征),T为从问题语义分析器中得到的语义树对应的隐藏变量,Q为提出的问题。模型中使用确定性评价函数来评估P(A|T,W)。运用对数线性模型获得 P(T|Q)。由此可见 SWQA模型的答案会根据数据集的变化而有所不同。

        2.联合嵌入

        将VQA作为一个多标签分类问题。图像特征是在预先训练的卷积神经网络的最后一个全连接层输出的结果。文本问题被输入到一个循环神经网络,产生一个固定长度的特征向量作为问题表示。最后将图像和问题的特征共同嵌入作为一个矢量来训练多标签分类器预测答案。

视觉问答05day

        联合嵌入主要采用连接向量或点乘来直接连接图片和问题表示,但可能没用足够的表达能力来充分捕捉两种方式之间的复杂联系。

      3.注意力机制

       Lu 等人引入了共同关注 机制,该机制产生并使用对图像区域和问题词的关注。为了缩小图像和问题特征的差距,Yu等人利用注意力不仅提取空间信息,而且提取图像的语言概念。Z.Yu 等人将注意机制与图像与问题的新型多模态特征融合相结合。

基于 MCB 的改进算法:视觉问答05day

       使用基于ImageNet数据预训练的 152 层 ResNet提取图像特征。输入问题首先被标记为单词,单词是一个one-hot编码,并通过一个学习的嵌入层传递。然后,再使用MCB 将图像特征与输入问题表示进行合并。最后,经过全连接以及 softmax 预测得到问题答案。

       MCB 模型结构就是对图像进行关注的方法。基于 MCB 的联合嵌入方法有效地减少了参数的数量,并且该方法将文 本表示作为注意机制来影响图像特征的权重,从而得到与问题相关的图像特征。

       目前提出的协同关注机制,协同注意同时考虑了对单词和图像的关注。应用多个共同关注机制来关注图像区域和文本中的问题。

       Duy-Kien等人的密集共同关注机制:

       使用了多个协同注意机制来捕获问题和图像 中的细粒度信息。应用现有的区域方案算法生成目标区域,并根据问题选择与问题最相关的区域来生成特征;应用双向 LSTM 网络来处理问题,根据图像区域生成与图像区域最相 关的问题特征。所提出的机制可以处理任何图像区域和任何 问题单词之间的每个交互,这可能使得能够模拟正确回答问 题所必需的未知的复杂图像 - 问题关系。

       其构建方法为:使用双向 LSTM 来提取问题特征 Ql,使 用与训练的 CNN(在 ImageNet 上与训练的 152 层的 ResNet[6])来提取多个图像区域的视觉特征 Vl。

创建两个注意图,如图所示。

首先,构建亲和矩阵:

视觉问答05day

其中 Wl 是可学习的权重矩阵。按行对 Al 进行归一化, 得出由每个图像区域条件限制的问题单词的注意力映射:

视觉问答05day

其中,AQl 和 AVl 的每一行包含单个注意力映射。

然后使用乘法注意来导出问题和图像的特征表示视觉问答05day视觉问答05day  ,如图所示。AQl和VQl将注意力图存储在行中。

视觉问答05day

视觉问答05day

由此可知协同注意力机制生成图像 - 问题对的双相关特 征,能够更好地将问题和图像结合起来。

参考文献:

葛梦颖,孙宝山.基于深度学习的视觉问答系统[J].现代信息科技,2019,3(11):11-13+16.

 

相关文章: