RUBi: Reducing Unimodal Biases in Visual Question Answering

1. 文章概要

作者认为，现有的VQA模型都是使用的单模态偏见（unimodal biases）来获得正确答案，而没有使用图像信息。一旦使用数据集之外的数据，模型的性能往往会急剧下降。所以提出了一种新的学习策略RUBi来减少VQA模型中的偏差，它降低了最具偏见的例子，也就是那些不需要看图像就能被正确分类的例子。VQA模型中使用了两个输入模块，替代了对问题和答案之间统计规律的依赖。作者使用一个问题模型（question-only model）来捕捉语言偏见，它能够动态调整损失，来补偿偏见。最后作者基于VQA-CP v2进行了验证，作者提出的模型效果明显胜过当前最好模型。

2. 文章介绍

现有的VQA模型需要更高级的场景和问题理解，比如更精细的识别，目标检测，计数，场景推理等。然而，他们倾向于利用答案出现次数和问题中某些模态之间的统计规律。虽然它们被设计来合并来自两种模式的信息，但在实践中，它们经常在回答问题时不考虑图像模式。比如大部分香蕉都是黄色的，那么对于“香蕉颜色”的这类问题，模型实际上并不会去仔细学习如何表征香蕉的颜色以达到更高的精度。简单的说，相较于“查看图像-检测香蕉-评估香蕉颜色”这样的流程，建立关键词“what, color, bananas”与答案"yellow"之间的关联更简单。

一种量化这种统计关联的方法是训练单模态模型（to train unimodal models）。比如，仅用问题模型（question-only model）也能够在测试集上获得44%的正确率。VQA模型并没有放弃这种关联方式，因为他们的训练数据集和测试数据集是有着同样的分布。然而，如果测试集的统计规律与训练集完全不同，那么测试精度则会急剧下降。不过，收集真实数据集时很难避免这些统计规则，所以为了更好地学习行为，下图为新的策略来减少来自问题模式的偏差的例子。

RUBi: Reducing Unimodal Biases in Visual Question Answering

本文提出的RUBi，旨在减少VQA模型在训练期间学习到的单模态偏差。我们的策略降低了最具偏见的例子（这些例子可以在不考虑图像模态的情况下被正确分类）。它能够驱动VQA模型同时使用这两种输入模态（基于统计规律，有时候视觉模态是没有用到的），而不是依赖于问题和答案之间的统计规律。另外，作者还在VQA训练的顶部加入了问题模型（question-only models），通过动态的调整损失以补偿这种偏见的影响。结果表明，通过VQA模型反向传播的梯度在偏差最大的例子中减小了，而在偏差较小的例子中增大了。训练结束之后，再移除这个问题分支（question-only branch）。

3. 相关工作

数据集和模型中的单模态偏见评估： 尽管VQA是进行了两个模态的合并，但是研究发现模型大部分情况下则是依据单个模态的输入和答案之间建立表面关系。为了量化这种单模态偏见，我们可以只用两种模态中的一种进行评估。所以作者选择了问题模型（文本模态），因为它与答案之间存在大量的统计规律。在RUBi的基准下，作者使用这个模型以减少问题偏见。

对模型而言，目前大部分模型都是利用了这种单个模态的统计关联，达到了非常感人的效果。近期为了诊断数据集，引入了VQA-CP v2和VQA-CP v1，这两个数据集，针对每一种问题类型，在train和test数据集中都有着不同的答案分布。目前，大部分模型在这两个数据集上就表现失败了（fail on these benchmarks），因此本文就采用了VQA-CP v2来作为实验数据集。

4. Reducing Unimodal Biases Approach（RUBI）

作者将VQA视为一个分类问题。给定的数据集D是n个 RUBi: Reducing Unimodal Biases in Visual Question Answering ，图像v，问题q和答案a，作者需要优化的则是函数中的参数。其中，使用图像编码器产生图像特征，使用问题编码器产生问题特征，然后进行融合，最后分类，具体表达式如下：

RUBi: Reducing Unimodal Biases in Visual Question Answering

Classical learning strategy and pitfall（经典学习策略与陷阱）：传统的VQA模型如下所示：

RUBi: Reducing Unimodal Biases in Visual Question Answering

一般是用交叉熵来处理：

RUBi: Reducing Unimodal Biases in Visual Question Answering

这样就很容易从数据集中学习到单模态偏见。一种极端的情况，强烈偏向问题模态的模型会导致问“香蕉颜色”的问题时，答案总是“黄色”。他们不学习使用图像信息，因为在数据集中香蕉不是黄色的例子太少了。一旦训练完成，他们不能充分使用这两种模式，使他们无法操作来自不同分布的数据，如现实世界的数据。

4.1 RUBi learning strategy

问题模型学习偏见（Learning biases with a question-only branch）：一种测量单模态偏见的方法就是使用单模态模型，该模型只采用两种模式中的一种作为输入。我们的方法如下图，是将一个只包含问题的模型作为我们的VQA模型的一个分支，这将改变主要模型的预测。通过这样做，只针对问题的分支捕获了问题偏差，从而允许VQA模型将重点放在仅使用问题模式不能正确回答的示例上。作者将这个模型补充在了训练过程中，训练结束后则进行移除。

RUBi: Reducing Unimodal Biases in Visual Question Answering

只针对问题的分支可以形式化为一个函数 RUBi: Reducing Unimodal Biases in Visual Question Answering ，并由一个，组成。公式如下：

RUBi: Reducing Unimodal Biases in Visual Question Answering

过滤预测结果来预防偏见（Preventing biases by masking predictions）：在用预测结果计算loss之前【公式2之前】，我们先将预测结果和问题模型的结果进行合并，问题模型的结果是一个介于0-1之间的掩膜（mask），通过修正预测结果，将这个掩膜用于动态的改变loss。然后利用mask和原来的预测结果进行点乘，生成新的预测结果，也就是：

RUBi: Reducing Unimodal Biases in Visual Question Answering

为了更好地理解我们的方法对学习的影响，作者研究了下面两个场景：

1. 我们减少了最具偏见的例子的重要性，即可以正确分类的例子不使用图像模态。

首先，减少大部分偏见样本的重要性（偏见样本指不需要图像就可以正确被分类的样本）。问题模型输出的mask来增加输出正确答案的得分而减少其他答案的得分，这样最终的loss会由于这些偏见样本而降低。简单的说，就是通过VQA模型反向传播的梯度更小，因此减少了这些偏见样本的重要性。用下图的第一行来说明这个过程：

RUBi: Reducing Unimodal Biases in Visual Question Answering

【在第一行中，我们举例说明RUBi如何减少损失，这些例子可以在不查看图像的情况下正确回答。在第二行，我们举例说明了RUBi是如何增加损失的，如果不使用这两种模式就无法回答这个问题。】

给定一个“香蕉是什么颜色”的问题，mask对于“yellow”的答案获得了0.8的得分，而答案为“green”和“white”的得分则很低。然后在新的迭代中，mask影响VQA的预测结果，“yeloow”答案的预测得分从0.8提高到了0.94，而与传统的VQA模型相比，loss则从0.22下降到了0.06。

2. 增加了不使用这两种模态就无法回答的例子的重要性。

对于这些示例，只针对问题的分支输出一个掩码，增加错误答案的分数。因此，损失要高得多，并且鼓励VQA模型从这些示例中学习。如上图的第二行：当图像包含一个绿色香蕉时，RUBi将损失从0.69增加到1.20。

Joint learning procedure：利用从两个损耗计算得到的梯度，联合优化了基础VQA模型及其问题分支的参数。主要损失 RUBi: Reducing Unimodal Biases in Visual Question Answering 为公式4中与fQM(vi, qi)预测相关的交叉熵损失;只有问题的损耗是与方程3中fQ(qi)的预测相关的交叉熵损耗

RUBi: Reducing Unimodal Biases in Visual Question Answering

5. 实验

RUBi: Reducing Unimodal Biases in Visual Question Answering

作者进行了超过5次的实验，并计算平均精度。提出的RUBi的总体精度为47.11，标准差为0.51，远远高于其他模型。

结构类比（Architecture agnostic）：RUBi具有较好的迁移性，作者将其用在了两个经典模型——Stacked Attention Networks (SAN)和Bottom-Up and Top-Down Attention (UpDn)，以说明这一点。结果如下图所示：

RUBi: Reducing Unimodal Biases in Visual Question Answering