《Visual Question Generation as Dual Task of Visual Question Answering》阅读笔记
一、研究背景
视觉问答(VQA)和视觉问题生成(VQG)是计算机视觉中的两个主题,但它们通常是分开探索的,尽管它们具有内在的互补关系。 在本文中,提出了一个端到端的统一模型,即可逆问答网络(iQAN),将问题生成作为问题回答的双重任务来引入,以提高VQA性能。 通过我们提出的可逆双线性融合模块和参数共享方案,我们的iQAN可以同时完成VQA及其双任务VQG。 通过与我们提出的双正则化器(称为双重训练)共同训练两项任务,我们的模型可以更好地理解图像,问题和答案之间的相互作用。
二、文章贡献
在这项工作中,将VQG和VQA视为双重任务,提出了一种新颖的训练框架,以引入VQG作为提高VQA模型性能的辅助任务。 相应地,得出一个统一的模型,可以完成不同形式的VQA和VQG,称为可逆问答网络(iQAN)。 该模型与VQA和VQG任务共同训练,可以部署在测试阶段的任务中。 此外,提出了一种新颖的参数共享方案和二元正则化,以明确地利用两个任务之间的内在联系。 通过对VQA2和CLEVR数据集的评估,我们提出的模型在VQA和VQG任务上都比MUTAN VQA方法获得更好的结果。 实验结果表明,我们的框架还可以推广到其他一些流行的VQA模型,并不断提高其性能。
三、实验模型
通过引入新的参数共享方案和二元正则化器,将VQA和VQG组件相互反向处理。
利用RNN得到关于question的embedded feature q,ResNet 152得到关于图片的特征v
对于模型中提到的MUTAN,参考《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》阅读笔记
Weight Sharing between Encoder and Decoder
- 在VQG中进行答案编码的Ea和VQA中进行答案解码的Wa的参数共享,但是两个矩阵之间互为转秩。
- VQA中的RNN用来encode question,VQG中的RNN用来decoder question,由于两个任务的目的不一样,使用同一个RNN没有意义。由于问题编码器和解码器使用相同的单词词汇,可以共享他们的word embedding。
Duality Regularizer
Dual Training
四、实验结论
在本文中,首次尝试将基于答案的视觉问题生成视为视觉问答的双重任务,并提出一种可推广的双重训练方案,即可逆问答网络(iQAN)。 所提出的方法将VQA模型重建为其双VQG形式,因此我们可以与两个共轭任务一起训练单个模型。 实验表明,我们的双训练模型在VQA2和CLEVR数据集上均优于现有技术模型。 我们进一步表明,所提出的双训练方案可以应用于其他一些流行的VQA模型。