《Visual Question Generation as Dual Task of Visual Question Answering》阅读笔记

一、研究背景

视觉问答（VQA）和视觉问题生成（VQG）是计算机视觉中的两个主题，但它们通常是分开探索的，尽管它们具有内在的互补关系。在本文中，提出了一个端到端的统一模型，即可逆问答网络（iQAN），将问题生成作为问题回答的双重任务来引入，以提高VQA性能。通过我们提出的可逆双线性融合模块和参数共享方案，我们的iQAN可以同时完成VQA及其双任务VQG。通过与我们提出的双正则化器（称为双重训练）共同训练两项任务，我们的模型可以更好地理解图像，问题和答案之间的相互作用。

二、文章贡献

在这项工作中，将VQG和VQA视为双重任务，提出了一种新颖的训练框架，以引入VQG作为提高VQA模型性能的辅助任务。相应地，得出一个统一的模型，可以完成不同形式的VQA和VQG，称为可逆问答网络（iQAN）。该模型与VQA和VQG任务共同训练，可以部署在测试阶段的任务中。此外，提出了一种新颖的参数共享方案和二元正则化，以明确地利用两个任务之间的内在联系。通过对VQA2和CLEVR数据集的评估，我们提出的模型在VQA和VQG任务上都比MUTAN VQA方法获得更好的结果。实验结果表明，我们的框架还可以推广到其他一些流行的VQA模型，并不断提高其性能。

三、实验模型

《Visual Question Generation as Dual Task of Visual Question Answering》阅读笔记

通过引入新的参数共享方案和二元正则化器，将VQA和VQG组件相互反向处理。
利用RNN得到关于question的embedded feature q，ResNet 152得到关于图片的特征v
对于模型中提到的MUTAN，参考《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》阅读笔记

Weight Sharing between Encoder and Decoder

在VQG中进行答案编码的Ea和VQA中进行答案解码的Wa的参数共享，但是两个矩阵之间互为转秩。
VQA中的RNN用来encode question，VQG中的RNN用来decoder question，由于两个任务的目的不一样，使用同一个RNN没有意义。由于问题编码器和解码器使用相同的单词词汇，可以共享他们的word embedding。

Duality Regularizer

《Visual Question Generation as Dual Task of Visual Question Answering》阅读笔记

Dual Training

《Visual Question Generation as Dual Task of Visual Question Answering》阅读笔记

四、实验结论

在本文中，首次尝试将基于答案的视觉问题生成视为视觉问答的双重任务，并提出一种可推广的双重训练方案，即可逆问答网络（iQAN）。所提出的方法将VQA模型重建为其双VQG形式，因此我们可以与两个共轭任务一起训练单个模型。实验表明，我们的双训练模型在VQA2和CLEVR数据集上均优于现有技术模型。我们进一步表明，所提出的双训练方案可以应用于其他一些流行的VQA模型。