《Visual Question Generation as Dual Task of Visual Question Answering》阅读笔记

一、研究背景

视觉问答(VQA)和视觉问题生成(VQG)是计算机视觉中的两个主题,但它们通常是分开探索的,尽管它们具有内在的互补关系。 在本文中,提出了一个端到端的统一模型,即可逆问答网络(iQAN),将问题生成作为问题回答的双重任务来引入,以提高VQA性能。 通过我们提出的可逆双线性融合模块和参数共享方案,我们的iQAN可以同时完成VQA及其双任务VQG。 通过与我们提出的双正则化器(称为双重训练)共同训练两项任务,我们的模型可以更好地理解图像,问题和答案之间的相互作用。

二、文章贡献

在这项工作中,将VQG和VQA视为双重任务,提出了一种新颖的训练框架,以引入VQG作为提高VQA模型性能的辅助任务。 相应地,得出一个统一的模型,可以完成不同形式的VQA和VQG,称为可逆问答网络(iQAN)。 该模型与VQA和VQG任务共同训练,可以部署在测试阶段的任务中。 此外,提出了一种新颖的参数共享方案和二元正则化,以明确地利用两个任务之间的内在联系。 通过对VQA2和CLEVR数据集的评估,我们提出的模型在VQA和VQG任务上都比MUTAN VQA方法获得更好的结果。 实验结果表明,我们的框架还可以推广到其他一些流行的VQA模型,并不断提高其性能。

三、实验模型

《Visual Question Generation as Dual Task of Visual Question Answering》阅读笔记
《Visual Question Generation as Dual Task of Visual Question Answering》阅读笔记
通过引入新的参数共享方案和二元正则化器,将VQA和VQG组件相互反向处理。
利用RNN得到关于question的embedded feature q,ResNet 152得到关于图片的特征v
对于模型中提到的MUTAN,参考《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》阅读笔记

Weight Sharing between Encoder and Decoder

  • 在VQG中进行答案编码的Ea和VQA中进行答案解码的Wa的参数共享,但是两个矩阵之间互为转秩。
  • VQA中的RNN用来encode question,VQG中的RNN用来decoder question,由于两个任务的目的不一样,使用同一个RNN没有意义。由于问题编码器和解码器使用相同的单词词汇,可以共享他们的word embedding。

Duality Regularizer

《Visual Question Generation as Dual Task of Visual Question Answering》阅读笔记

Dual Training

《Visual Question Generation as Dual Task of Visual Question Answering》阅读笔记
《Visual Question Generation as Dual Task of Visual Question Answering》阅读笔记

四、实验结论

在本文中,首次尝试将基于答案的视觉问题生成视为视觉问答的双重任务,并提出一种可推广的双重训练方案,即可逆问答网络(iQAN)。 所提出的方法将VQA模型重建为其双VQG形式,因此我们可以与两个共轭任务一起训练单个模型。 实验表明,我们的双训练模型在VQA2和CLEVR数据集上均优于现有技术模型。 我们进一步表明,所提出的双训练方案可以应用于其他一些流行的VQA模型。

相关文章: