摘 要:视觉问答(Visual Question Answering,VQA)是一项涉及计算机 视觉、自然语言理解、知识表示与推理的学习任务。其标准定义译为中 文通俗来说为:视觉问答系统的输入为一张图像和一个关于这张图像形 式自由、开放式的自然语言问题,经过系统处理后提供一个准确的自然 语言答案作为输出,也即是基于一张图像的问答处理。因此视觉问答系 统不仅要理解文字形式提出的问题,还需要进行图像处理并结合图像的 内容进行解答。文章对视觉问答系统进行概述,并列举出一些目前广泛 使用的视觉问答技术,以及对视觉问答的应用场景和未来发展趋势做了 一个简要的描述。
关键词:自然语言处理 图像处理 视觉问答技术

1、概述篇
1.1、视觉问答简介

视觉问答(Visual Question Answering,VQA)是一项结合计算机视 觉和自然语言处理的学习任务。计算机视觉主要是对给定图像进行处 理,包括图像识别,图像分类等任务。自然语言处理主要是对自然语言, 文本形式的内容进行处理以及理解,包括机器翻译,信息检索,生成文 本摘要等任务。视觉问答是需要对给定图像和问题进行处理,经过一定 的视觉问答技术处理过后生成自然语言答案,是对二者的结合,如下图 1 所示为视觉问答实例。
视觉问答研究报告
视觉问答中最有趣并且也是最有挑战的地方是提出的问题的不可 预测性,在这种情况下,也就是要解决的问题直到运行时才完全确定, 因此技术关注点是要事先充分的挖掘图像信息,甚至有些问题不能直接 从图像中获得,而是需要一些常识推理,然后再和问题紧密联系起来, 才能给出相对准确的答案。如何才能准确而有针对性的获得图像特征和 信息,如何将获得的图像信息和问题很好的对应起来,从而获得比较准 确的自然语言答案,以及处理视觉问答的模型性能方面是我们需要关注 的焦点。就这方面来说视觉问答领域还有很多值得我们思考和研究的地 方。
1.2、视觉问答发展历程及相关现状
随着计算机视觉技术以及自然语言处理技术的不断发展,使得研究 领域变得越来越深入,视觉问答(VQA)是最近几年出现的一个新任务, 他需要对图像和文本形式的问题有很深的理解,并将二者联系起来生成 与图像一致的答案,本节回顾了近几年 VQA 的发展情况和现状。
2015 年 Aishwarya Agrawal,Jiasen Lu 等人[1]发表文章 VQA:Visual Question Answering,首次提出了自由形式、开放式可视化问答系统的任 务。文章中提出的方法可以完成针对图像的简单的问答任务,但是有些 情况下问题的答案并不是都可以能从图像中体现出来,因此接下来的研究点将围绕此展开。
2016 年 Qi Wu,Peng Wang 等人[2]发表文章,首次提出了将图像内容 的内部表示形式与从一般的知识库中提取的信息相结合,以回答广泛的 基于图像的问题。文章提出的方法很好的利用常识来推理解决了部分问 题,提高了视觉问答的准确率。
2017 年 Jiasen Lu,Jianwel Yang 等人[3]提出了一个新的 Co-attention model(协同注意机制模型),它的作用是根据提出的问题去挑选与问 题相关的 facts 并标记,丢弃那些和问题不相关的内容或者噪声。同年, Peng Wang,Qi Wu 等人[4]提出了一个新的 VQA 模型,它能够自适应地结 合现成的 CV 方法来回答问,将共同注意机制扩展为一个更高层次,能 够联合处理问题、图像和事实。并且文章提出的模型不仅生成问题的答 案,还能生成一组支持信息,包括人类可读的答案的推理原因。
2018 年 Peng Wang,Qi Wu 等人[5]发表文章,文章对视觉问答任务进 行了扩展,提出视觉对话的任务。视觉对话任务要求系统在回答图像问 题时需要基于之前发生的所有问答来回答。文章将 GAN 与注意力机制 紧密结合起来应用到 VQA,让这个算法生成更像人说的自然语言,较 好的完成视觉对话的任务。
1.3、应用场景
视觉问答系统将图像和关于图像的任何形式的开放式的自然语言 问题作为输入,并将自然语言答案作为输出。适用于视障用户或情报分 析员积极获取视觉信息时遇到的情况,并且还可以通过答案来获得图像 是否是我们指定要寻找的图片,因此可以从海量照片中筛符合要求的图 片等。更进一步分析,有图像问题上升到视频问题的问答,再由答案推 理找到包含我们问题内容的视频等。
2、技术篇
随着深度学习的在计算机视觉和自然语言处理中的广泛应用,深度 学习强大的特征学习能力极大的推动了计算机视觉和自然语言处理领 域的研究。在计算机视觉领域,CNN 对于图像的强大特征抽取能力,使 得它可以非常完备地抽取并表示图像信息。目前一般对图像特征化的算 法都是使用在 ImageNet 上预训练好的 CNN 模型。在自然语言处理方 面,RNN 模型和 LSTM 模型展现出很好的处理能力。因此一般 VQA 任 务一般都是同时利用这两种模型的组合分别对图像和文本进行处理得 到图像问题的答案。
由深度网络结构模型 CNN 模型和 LSTM 模型网络结构组合而得的VQA 模型是目前比较广泛使用并且效果相对较好的模型。接下来我将 介绍一些近几年研究过程中提到的一些比较常用的视觉问答方法。
2.1、基于统计的传统方法
基于统计的传统的方法基于贝叶斯框架。将数据集中训练集答案出 现的次数设定一个阈值,通过答案出现的次数来形成候选答案集,然后 将每一个候选答案作为分类的标签,将 VQA 问题转化为了一个分类问 题,模型公式[6][7]如下:
P(A=a|Q,W) = ΣTP(A=a|T,W)P(T|Q)
其中,A 为答案,A 为候选集中的一个答案,W 代表图像,T 为从 问题语义分析其中得到的语义树对应的隐含变量,Q 为问题。该模型的 缺点是仅基于统计,没有充分结合图像和问题更深层次的特征信息,并 且数据集的不同会形成很大的效果差别。
2.2、联合嵌入方法
顾名思义,联合嵌入就是用 CNN 对图像进行特征提取,用 LSTM 对文本问题进行特征抽取,然后将二者进行融合的思想来生成自然语言 答案的方法。 例如 2015 年 Aishwarya Agrawal,Jiasen Lu 等人发表文章 VQA: Visual Question Answering 并提出的 Deep LSTM Q + norm I 模型。其中 I 指的是提取的图片特征信息,norm I 指的是对 VGGNet 抽取的图像语 义信息向量(1024 维)做 L2 归一化处理。用 VGGNet 最后一个隐藏层的 两个**函数来提取图像特征信息,用 LSTM 抽取文本问题中的语义特 征信息,然后通过点乘的方式将两者得到的信息进行融合,融合后的特 征信息传递给给一个以 Softmax 为分类器的三层 MLP 中生成答案。如 下图 2 所示为 Deep LSTM Q + norm I 模型的网络架构。
视觉问答研究报告
图 2Deep LSTM Q + norm I 模型
其中模型在训练过程中,固定处理图像的 CNN 模型的参数,只对 处理文本问题的 LSTM 和二者信息融合的 MLP 模型参数进行训练调整。 目前用视觉问答中图像处理部分一般都是固定 CNN 参数,使其不参与 微调。原因为微调过程工作量比较大,并且效果不明显。 联合嵌入能够将相对独立的图片特征和问题文本表示结合起来,更 能够根据图片来回答问题。但联合嵌入中大多都采用连接向量或矩阵相 乘或点乘来直接连接图片和问题表示,虽然这产生了一种联合表示,但 它可能没有足够的表达能力来充分捕捉两种不同方式之间的复杂联系。
2.3、注意力机制
Co-attention model(协同注意机制模型)的作用是根据提出的问题 去挑选与问题相关的 facts 并标记,丢弃那些和问题不相关的内容或者 噪声。该模型生成并突出与问题相关的图像区域的空间映射。 例如 2017 年 Jiasen Lu,Jianwel Yang 等人发表文章并提出了一个新 的分层协同注意力模型。共同注意允许模型注意图像的不同区域以及问 题的不同片段,文章中提出的分三个层次对问题进行分层建模,从不同 粒度中获取信息。模型主要包括两个特色功能,Co-Attention—共同注意, 共同推理图像注意和问注意,并且图像表示可以用于引导问题注意,问 题表示用于引导图像注意。Question Hierachy—问题层次,将问题分为 三个层级,分别为单词层次,短语层次,问题层次。并在每个层次上, 将图像和问题进行共同关注。分层协同注意力模型网络结构如下图 3 所 示。
视觉问答研究报告
图 3 分层协同注意力模型
由此可知分层协同注意力模型融合生成图像 - 问题的双相关特征 信息,能够更好地将问题和图像结合起来,提高视觉问答的准确率。
3、发展局限及改进方向
总结来说,虽然目前的视觉问答研究取得了一些成就,但是就目前 发展形势来看,还是面临有一定的发展局限性,主要有以下几个问题:
(1)整体的准确率不高。虽然计算机视觉和自然语言处理在不断 地发展进步促进了视觉问答的准确率在不断提高,但是就整体来看,其 准确率远远低于人类水平,距离高水平的 AI 视觉问答系统还有很长的 一段距离。可能的改进方向为在于层次协同注意机制的基础上,继续研 究图像和文本的相互协同注意,使得二者具有较强的交互,另外还注重 提高模型对文本和图像的表达能力。
(2)推理能力不强。不能够将问题语义具有的特征和图片像特征 非常完美的融合起来,导致高层次的逻辑推理出现时,模型往往不能给 出正确的预测。可能的改进方向为构建关于图像和关于问题的知识图谱 和补充常识知识库来增加模型的知识从而增强模型的推理能力。
(3)图像特征过于单一。视觉问答中对于图像的处理,一般都是 使用在数据集 ImageNet 训练好的 CNN 模型,面对用户开放式的问题, 目前使用的 CNN 模型提取特征过于单一化。可能的改进方向为尝试更 多的模型或融合模型来进行图像处理法,或者将图像分类补充真对象的 图片数据集来微调或重新训练 CNN 模型。
(4)深度学习的不可解释性。这是深度学习共同的问题,尽管深 度学习目前被广泛应用,但是其不可解释性也是深度学习继续发展的局 限,同时也会对处理的任务产生局限。可能的改进方向为致力于研究和 使用别的可解释的新型模型来实现视觉问答任务。
4、趋势篇
作为需要视觉理解与推理能力的,融合计算机视觉以及自然语言处 理的视觉问答(VQA),它的进步在计算机视觉的发展和自然语言处理 的能力提高的基础上还有着更高的要求,即对图像的理解——在图像处 理的基础能力和对问题的理解——在文本处理的基础能力之外,还需要 将二者能够很完美的融合起来,另外还要学习知识与推理的能力。不仅 需要提高模型的精度,提高回答问题的自然语言化 。虽然目前的视觉 问答研究取得了一些成就,但就其目前所能达到的效果来看,距离高水 平的 AI 视觉问答系统还有很长的一段距离。一个能够真正理解图像、 学习到知识和推理能力的视觉问答(VQA)模型才是最终目标。
参考文献
[1]Agrawal A , Lu J , Antol S , et al. VQA: Visual Question Answering[J]. International Journal of Computer Vision, 2015.
[2]Wu Q , Wang P , Shen C , et al. Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources[J]. 2016.
[3]Lu J , Yang J , Batra D , et al. Hierarchical Co-Attention for Visual Question Answering[J]. 2017.
[4]Wang, Peng, Wu, Qi, Shen, Chunhua, 等 . The VQA-Machine: Learning How to Use Existing Vision Algorithms to Answer New Questions[J],2017.
[5]Wu Q , Wang P , Shen C , et al. Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning[J]. 2018.
[6]Malinowski M , Fritz M . A Multi-World Approach to Question Answering about Real-World Scenes based on Uncertain Input [J].OALib Journal,2014.
[7]白林亭, 文鹏程, 李亚晖. 基于深度学习的视觉问答技术研究[J]. 航空计算技术, 2018. 7

相关文章: