Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读

这篇文章虽然也是VQA的，但和之前看的类型完全不一样，文章研究的问题也几乎没有被探索过，所以还是有很多地方看不太明白，在这里仅发表自己的看法，若有不对的地方，还望多多指教！

引入

人类看到和理解的视觉场景是基于不同视觉概念。例如，从一张椅子的单一图像中，人类毫不费力地识别出不同的视觉概念，如它的颜色、材料等。风格、用途等。这种不同的视觉概念可能与自然语言中定义每个视觉概念的识别任务的不同问题有关（例如，这把椅子是什么颜色的？）
对于VQA的方法依赖于一个大规模的图像、问题和答案三重数据集，并训练一个以图像和问题为输入并产生答案的分类器。但这个方向有一个关键的限制，即数据集中的图像、问题和答案三重是学习视觉概念的唯一来源。人类根据从书本、图片、视频和与目标问题不一定相关的个人经验等不同来源学到的视觉概念来回答一个问题。即使对于机器，也有更多的自然和可伸缩的来源来学习视觉概念：图像类标签、边界框和图像描述。这种观察带来了一个自然的问题：我们能不带问题地学习视觉概念并将它们传递给VQA吗？

为了解决这个问题，我们引入了一个带有词汇外答案的VQA问题,如下图：
Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读
A:外部视觉数据集提供一组标签 B:VQA训练集中的一组答案（B属于A）
a∈A-B:VQA测试集中的一组答案
这项任务的目标是通过利用从外部视觉数据集中学习的视觉概念，成功地处理词汇之外的答案a∈A-B【我是这样理解的A是外部视觉数据集里的标签，B是把A的子集标签作为答案，而所以剩余的A-B=a他也是答案，所以他是词汇外的答案】
本文所研究的问题设置类似于先前的工作类似，即词汇外的答案被用于测试，不同的是，我们将问题描述为转移学习，其中词汇外的答案是从外部视觉数据中学习的。

小小总结下：

其实文章主要就是研究了二个问题***1.如何无问题地学习视觉概念***，2.如何将学习到的概念转移到VQA模型中。为了学习可迁移的视觉概念，我们训练了一个任务条件视觉分类器，它的任务被任务特征所细化。分类器被用作回答单元，其中任务特征是从问题中推断出来的。要训练没有任务注释的任务条件视觉分类器（也就是上面说的无问题），我们提出了一种基于语言知识来源的无监督任务发现技术，如结构化词汇数据库，例如Word Net[10]和区域描述。所提出的迁移学习框架有助于在VQA中推广词汇外的答案

主要贡献有三个方面：
1提出了一种新的基于任务条件视觉分类器的视觉问题回答迁移学习算法。
2我们提出了一种无监督的任务发现技术，用于学习没有显式任务注释的任务条件视觉分类器.
3我们表明，所提出的方法通过从视觉数据集中的知识转移来处理词汇之外的答案，而不需要问题注释。

1、Transfer Learning Framework

我们工作的主要目标是通过从现成的视觉数据集中学习视觉概念并将概念转移到VQA以回答问题来处理VQA中的词汇外答案。由于VQA可以被认为是一个任务条件分类问题，其中任务是由问题定义的，我们引入了一个任务条件视觉分类器，它从视觉输入和任务规范中生成答案，作为学习和传递视觉概念的媒介。图2显示了拟议方法的总体框架。我们预先训练任务条件视觉分类器，通过无监督任务发现使用无问题的视觉数据集或任务规范，并通过传递学习的参数将其调整到VQA模型。
Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读

1、1Task conditional visual classifier

任务条件视觉分类器是一个函数，它取视觉特征v和任务特征τ并产生答案或标签的概率分布 Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读，其中，答案和标签根据上下文可互换使用。该分类器是具有参数θ的神经网络，模型为条件分布p_θ(a|v, τ ).，两个输入v和τ 通常由编码器获得。

在所提出的转移学习场景中，任务条件视觉分类器是预先训练的现成视觉数据集，例如Visual Genome，并转移到VQA。在预训中，共同学习分类器和两个特征编码器 Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读的参数。这一阶段允许任务条件视觉分类器通过学习任务特征τ来处理不同的视觉识别任务。将学习迁移到VQA是通过重用参数θ和更新的编码器和应用于学习的任务条件视觉分类器来实现的

1.2 Pretraining

学习任务条件视觉分类器自然被表述为最大限度地提高以下预期可能性的问题：
Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读
是基于图像i和包围盒b的视觉特征，使用具有参数φpre的注意机制和现成的特征提取器获取。是从任务规范t编码的任务特征，a是从数据分布中采样的答案且 a∈A。

上述方程中的优化需要一个联合分布，即P_D（a，i，b，t），在我们的设置中无法在外部数据集中访问,由于缺少任务规范t。（第2节描述了如何利用可视化描述和语言知识库对联合分布pD(a, I, b, t)进行建模。）

1.3 Transfer learning for VQA

Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读
如上图所示，所提出的VQA模型包含一个任务条件视觉分类器p_θ(a|v, τ ).。通过共享学习的参数θ，将预先训练的视觉概念传递给VQA。 .然后，将学习VQA模型描述为学习p_θ(a|v, τ )的输入表示v和τ，这是由
Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读
是一个编码的视觉特征，具有图像i和问题q，使用具有参数φvqa的注意机制和现成的特征提取器获取。任务特征使用参数η_vqa对问题q进行编码。

为了优化，需要为VQA，P_vqa（a，i，q）联合分布训练数据集，其中来自分布的答案满足一个 a∈A-B。通过最大限度地提高实现目标的可能性来学习 Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读和而预先训练的任务条件视觉分类器θ的参数保持不变。

Weakly supervised task regression 使用预先训练的任务条件视觉分类器进行问题q指定的视觉识别需要推断出一个最优的任务特征T_q。这个要求引入了一个学习问题-——task regression，它优化了一个编码器来正确地预测T_q。因为直接最小化误差 Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读需要对任务进行额外的监督，所以，我们利用VQA数据作为薄弱监督的来源。从而优化了间接损失，这使得的答案分布相似的。通过假设在VQA数据集中隐式建模真实的任务条件答案分布 Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读，我们把公式（2）作为弱监督任务回归的目标函数。

Out-of-vocabulary answering 我们通过调整输入表示来学习VQA模型，同时修复预先训练的任务条件视觉分类器p_θ(a|v, τ )。这种策略允许一个模型专注于学习从问题中推断视觉识别任务 Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读，不需要所有可能的答案的数据。一旦推断出任务特征T，则学习的任务条件视觉分类器可以回答预先训练的视觉概念，包括词汇外的视觉概念。

Matching visual features 为了在VQA中重用预先训练的视觉分类器而不进行微调，视觉特征v的语义不应通过学习VQA数据集来改变。在我们的设置中，我们采用和以往研究的相同的视觉特征提取器进行预训练和VQA。

2. Unsupervised Task Discovery

使用现成的视觉数据集学习任务条件视觉分类器并不简单，因为缺少任务规范的注释，但这对于学习任务规范向量τ的编码器是必要的。所以提出了无监督任务发现，它从利用语言知识源建模的任务分布中采样任务规范t。

2.1 Leveraging linguistic knowledge sources

由问题给出的视觉识别任务通常定义从视觉输入到一组可能的视觉概念的映射，即字组。例如，一个“女人持有什么？”的问题定义在图像中查找可抓住的物体的视觉识别任务，这是一个字组{球，球拍，杯子.}的分类。所以通过将任务视为单词组（即。可抓住的物体）来建模任务描述t的分布。使用语言知识源进行无监督任务发现的主要原因是语言知识源中的词组往往是可访问的。。本文考虑两个语言知识来源：1）提供视觉数据的视觉描述；2）一个结构化词汇数据库，称为Word Net。

2. 2 Visual description

下图为用Visual description的方法：
Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读
我们使用Visual Genome作为一个现成的视觉数据集，它确定了一个数据分布PV（a，i，b，d），包括视觉描述d。此数据集中的描述旨在显式地提到答案，以便答案与描述之间的关系是明确的。
将视觉描述中的答案替换为一个特殊的词<空白>来定义任务规范t_d，该词正式表示为td=ρ（d，a），ρ（d，a）是生成空白描述的函数。在t_d中的下标意味着基于视觉描述提取任务规范。根据这一定义，联合分布， Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读，任务规范从下式得：

是一个增量函数，如果两个输入相同，则返回1，否则返回0。
我们首先对视觉数据（a，i，b，d）进行采样，然后从p（t_d|d，a）中采样任务规范t_d，从而对预训练所需的数据(a, I, b, t_w)进行采样。这个程序也重新导致抽样描述d，但当我们预先训练任务条件视觉分类器时，我们不关心它。。对于预训练，我们用门控递归单元将t_d编码为任务特征 Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读，因为t_d是一个单词序列。
对于任务规范使用空白描述的主要原因是定义一组候选词是有效的。例如，一个空白的描述“一个人持有_____”将空白的候选词限制为一组可以拿住的对象。因此，可以使用空白描述来隐式地确定表示视觉识别任务的单词组。

2. 3 WordNet

WordNet是一个词汇数据库，用一个有向无歧义的词实体的无环图表示，称为Synset。（上网百度了下wordNet 通过网状结构来组织词汇，将含义相近的词汇划分到一个组中。在这个网状结构之中，词汇与词汇之间的主要通过同义词连接在一起而形成了含义基本一致的group，称为synsets，也就是同义词形成的集合。）
Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读
上图是WordNet的示例子图。

基于WordNet和可视化数据（a，i，b，d）的任务规范tw采样过程如下图所示：
Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读

该过程的主要思想是将以答案p（t_w|a）为条件任务分布建模WEI为了在答案所属的可能词组上的均匀分布，其中，任务规范tw是单词组中单词的共同祖先。
建立分布p（tw|a）需要两个阶段：
1）构造一个单词组表，该表将任务规范映射到一个单词组
2）构造一个倒排词组表，该表将一个答案字映射到一组任务规范。
（倒排词组表映射的是一组规范）
给定分布p（tw|a），联合分布， Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读

对于训练，我们根据从零开始学习的单词嵌入函数，将tw编码到任务规范向量中。

通过选择Word Net中一个节点的Synset作为任务规范tw,这是多个单词的共同祖先，因为共享一个共同祖先的一组单词构造了一个单词组，而单词组也可以定义一个视觉识别任务。

下图显示了构造的单词组表：
Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读

实验结果

显示了文章拟议的模型预测示例：
Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读
所提出的模型正确地预测了提出不同视觉概念的问题的词汇外答案如地板类型，材料，运动类型和品牌。