视觉问答研究报告

摘要：视觉问答（Visual Question Answering,VQA）是一项涉及计算机视觉、自然语言理解、知识表示与推理的学习任务。其标准定义译为中文通俗来说为：视觉问答系统的输入为一张图像和一个关于这张图像形式自由、开放式的自然语言问题，经过系统处理后提供一个准确的自然语言答案作为输出，也即是基于一张图像的问答处理。因此视觉问答系统不仅要理解文字形式提出的问题，还需要进行图像处理并结合图像的内容进行解答。文章对视觉问答系统进行概述，并列举出一些目前广泛使用的视觉问答技术，以及对视觉问答的应用场景和未来发展趋势做了一个简要的描述。
关键词：自然语言处理图像处理视觉问答技术

1、概述篇
1.1、视觉问答简介
视觉问答（Visual Question Answering,VQA）是一项结合计算机视觉和自然语言处理的学习任务。计算机视觉主要是对给定图像进行处理，包括图像识别，图像分类等任务。自然语言处理主要是对自然语言，文本形式的内容进行处理以及理解，包括机器翻译，信息检索，生成文本摘要等任务。视觉问答是需要对给定图像和问题进行处理，经过一定的视觉问答技术处理过后生成自然语言答案，是对二者的结合，如下图 1 所示为视觉问答实例。
视觉问答研究报告
视觉问答中最有趣并且也是最有挑战的地方是提出的问题的不可预测性，在这种情况下，也就是要解决的问题直到运行时才完全确定，因此技术关注点是要事先充分的挖掘图像信息，甚至有些问题不能直接从图像中获得，而是需要一些常识推理，然后再和问题紧密联系起来，才能给出相对准确的答案。如何才能准确而有针对性的获得图像特征和信息，如何将获得的图像信息和问题很好的对应起来，从而获得比较准确的自然语言答案，以及处理视觉问答的模型性能方面是我们需要关注的焦点。就这方面来说视觉问答领域还有很多值得我们思考和研究的地方。
1.2、视觉问答发展历程及相关现状
随着计算机视觉技术以及自然语言处理技术的不断发展，使得研究领域变得越来越深入，视觉问答（VQA）是最近几年出现的一个新任务，他需要对图像和文本形式的问题有很深的理解，并将二者联系起来生成与图像一致的答案，本节回顾了近几年 VQA 的发展情况和现状。
2015 年 Aishwarya Agrawal,Jiasen Lu 等人[1]发表文章 VQA：Visual Question Answering，首次提出了自由形式、开放式可视化问答系统的任务。文章中提出的方法可以完成针对图像的简单的问答任务，但是有些情况下问题的答案并不是都可以能从图像中体现出来，因此接下来的研究点将围绕此展开。
2016 年 Qi Wu,Peng Wang 等人[2]发表文章，首次提出了将图像内容的内部表示形式与从一般的知识库中提取的信息相结合，以回答广泛的基于图像的问题。文章提出的方法很好的利用常识来推理解决了部分问题，提高了视觉问答的准确率。
2017 年 Jiasen Lu,Jianwel Yang 等人[3]提出了一个新的 Co-attention model（协同注意机制模型），它的作用是根据提出的问题去挑选与问题相关的 facts 并标记，丢弃那些和问题不相关的内容或者噪声。同年， Peng Wang,Qi Wu 等人[4]提出了一个新的 VQA 模型，它能够自适应地结合现成的 CV 方法来回答问，将共同注意机制扩展为一个更高层次，能够联合处理问题、图像和事实。并且文章提出的模型不仅生成问题的答案，还能生成一组支持信息，包括人类可读的答案的推理原因。
2018 年 Peng Wang,Qi Wu 等人[5]发表文章，文章对视觉问答任务进行了扩展，提出视觉对话的任务。视觉对话任务要求系统在回答图像问题时需要基于之前发生的所有问答来回答。文章将 GAN 与注意力机制紧密结合起来应用到 VQA，让这个算法生成更像人说的自然语言，较好的完成视觉对话的任务。
1.3、应用场景
视觉问答系统将图像和关于图像的任何形式的开放式的自然语言问题作为输入，并将自然语言答案作为输出。适用于视障用户或情报分析员积极获取视觉信息时遇到的情况，并且还可以通过答案来获得图像是否是我们指定要寻找的图片，因此可以从海量照片中筛符合要求的图片等。更进一步分析，有图像问题上升到视频问题的问答，再由答案推理找到包含我们问题内容的视频等。
2、技术篇
随着深度学习的在计算机视觉和自然语言处理中的广泛应用，深度学习强大的特征学习能力极大的推动了计算机视觉和自然语言处理领域的研究。在计算机视觉领域，CNN 对于图像的强大特征抽取能力，使得它可以非常完备地抽取并表示图像信息。目前一般对图像特征化的算法都是使用在 ImageNet 上预训练好的 CNN 模型。在自然语言处理方面，RNN 模型和 LSTM 模型展现出很好的处理能力。因此一般 VQA 任务一般都是同时利用这两种模型的组合分别对图像和文本进行处理得到图像问题的答案。
由深度网络结构模型 CNN 模型和 LSTM 模型网络结构组合而得的VQA 模型是目前比较广泛使用并且效果相对较好的模型。接下来我将介绍一些近几年研究过程中提到的一些比较常用的视觉问答方法。
2.1、基于统计的传统方法
基于统计的传统的方法基于贝叶斯框架。将数据集中训练集答案出现的次数设定一个阈值，通过答案出现的次数来形成候选答案集，然后将每一个候选答案作为分类的标签，将 VQA 问题转化为了一个分类问题，模型公式[6][7]如下：
P(A=a|Q,W) = ΣTP(A=a|T,W)P(T|Q)
其中，A 为答案，A 为候选集中的一个答案，W 代表图像，T 为从问题语义分析其中得到的语义树对应的隐含变量，Q 为问题。该模型的缺点是仅基于统计，没有充分结合图像和问题更深层次的特征信息，并且数据集的不同会形成很大的效果差别。
2.2、联合嵌入方法
顾名思义，联合嵌入就是用 CNN 对图像进行特征提取，用 LSTM 对文本问题进行特征抽取，然后将二者进行融合的思想来生成自然语言答案的方法。例如 2015 年 Aishwarya Agrawal,Jiasen Lu 等人发表文章 VQA： Visual Question Answering 并提出的 Deep LSTM Q + norm I 模型。其中 I 指的是提取的图片特征信息，norm I 指的是对 VGGNet 抽取的图像语义信息向量(1024 维)做 L2 归一化处理。用 VGGNet 最后一个隐藏层的两个**函数来提取图像特征信息，用 LSTM 抽取文本问题中的语义特征信息，然后通过点乘的方式将两者得到的信息进行融合，融合后的特征信息传递给给一个以 Softmax 为分类器的三层 MLP 中生成答案。如下图 2 所示为 Deep LSTM Q + norm I 模型的网络架构。
视觉问答研究报告
图 2Deep LSTM Q + norm I 模型
其中模型在训练过程中，固定处理图像的 CNN 模型的参数，只对处理文本问题的 LSTM 和二者信息融合的 MLP 模型参数进行训练调整。目前用视觉问答中图像处理部分一般都是固定 CNN 参数，使其不参与微调。原因为微调过程工作量比较大，并且效果不明显。联合嵌入能够将相对独立的图片特征和问题文本表示结合起来，更能够根据图片来回答问题。但联合嵌入中大多都采用连接向量或矩阵相乘或点乘来直接连接图片和问题表示，虽然这产生了一种联合表示，但它可能没有足够的表达能力来充分捕捉两种不同方式之间的复杂联系。
2.3、注意力机制
Co-attention model（协同注意机制模型）的作用是根据提出的问题去挑选与问题相关的 facts 并标记，丢弃那些和问题不相关的内容或者噪声。该模型生成并突出与问题相关的图像区域的空间映射。例如 2017 年 Jiasen Lu,Jianwel Yang 等人发表文章并提出了一个新的分层协同注意力模型。共同注意允许模型注意图像的不同区域以及问题的不同片段，文章中提出的分三个层次对问题进行分层建模，从不同粒度中获取信息。模型主要包括两个特色功能，Co-Attention—共同注意，共同推理图像注意和问注意，并且图像表示可以用于引导问题注意，问题表示用于引导图像注意。Question Hierachy—问题层次，将问题分为三个层级，分别为单词层次，短语层次，问题层次。并在每个层次上，将图像和问题进行共同关注。分层协同注意力模型网络结构如下图 3 所示。
视觉问答研究报告
图 3 分层协同注意力模型
由此可知分层协同注意力模型融合生成图像 - 问题的双相关特征信息，能够更好地将问题和图像结合起来，提高视觉问答的准确率。
3、发展局限及改进方向
总结来说，虽然目前的视觉问答研究取得了一些成就，但是就目前发展形势来看，还是面临有一定的发展局限性，主要有以下几个问题：
（1）整体的准确率不高。虽然计算机视觉和自然语言处理在不断地发展进步促进了视觉问答的准确率在不断提高，但是就整体来看，其准确率远远低于人类水平，距离高水平的 AI 视觉问答系统还有很长的一段距离。可能的改进方向为在于层次协同注意机制的基础上，继续研究图像和文本的相互协同注意，使得二者具有较强的交互，另外还注重提高模型对文本和图像的表达能力。
（2）推理能力不强。不能够将问题语义具有的特征和图片像特征非常完美的融合起来，导致高层次的逻辑推理出现时，模型往往不能给出正确的预测。可能的改进方向为构建关于图像和关于问题的知识图谱和补充常识知识库来增加模型的知识从而增强模型的推理能力。
（3）图像特征过于单一。视觉问答中对于图像的处理，一般都是使用在数据集 ImageNet 训练好的 CNN 模型，面对用户开放式的问题，目前使用的 CNN 模型提取特征过于单一化。可能的改进方向为尝试更多的模型或融合模型来进行图像处理法，或者将图像分类补充真对象的图片数据集来微调或重新训练 CNN 模型。
（4）深度学习的不可解释性。这是深度学习共同的问题，尽管深度学习目前被广泛应用，但是其不可解释性也是深度学习继续发展的局限，同时也会对处理的任务产生局限。可能的改进方向为致力于研究和使用别的可解释的新型模型来实现视觉问答任务。
4、趋势篇
作为需要视觉理解与推理能力的，融合计算机视觉以及自然语言处理的视觉问答（VQA），它的进步在计算机视觉的发展和自然语言处理的能力提高的基础上还有着更高的要求，即对图像的理解——在图像处理的基础能力和对问题的理解——在文本处理的基础能力之外，还需要将二者能够很完美的融合起来，另外还要学习知识与推理的能力。不仅需要提高模型的精度，提高回答问题的自然语言化。虽然目前的视觉问答研究取得了一些成就，但就其目前所能达到的效果来看，距离高水平的 AI 视觉问答系统还有很长的一段距离。一个能够真正理解图像、学习到知识和推理能力的视觉问答（VQA）模型才是最终目标。
参考文献
[1]Agrawal A , Lu J , Antol S , et al. VQA: Visual Question Answering[J]. International Journal of Computer Vision, 2015.
[2]Wu Q , Wang P , Shen C , et al. Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources[J]. 2016.
[3]Lu J , Yang J , Batra D , et al. Hierarchical Co-Attention for Visual Question Answering[J]. 2017.
[4]Wang, Peng, Wu, Qi, Shen, Chunhua, 等 . The VQA-Machine: Learning How to Use Existing Vision Algorithms to Answer New Questions[J],2017.
[5]Wu Q , Wang P , Shen C , et al. Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning[J]. 2018.
[6]Malinowski M ， Fritz M . A Multi-World Approach to Question Answering about Real-World Scenes based on Uncertain Input [J].OALib Journal，2014.
[7]白林亭, 文鹏程, 李亚晖. 基于深度学习的视觉问答技术研究[J]. 航空计算技术, 2018. 7