多模态融合(四)Generative Visual Dialogue System viaWeighted Likelihood Estimation

背景

本篇论文研究的内容是视觉对话(Visual Dialogue，VD)系统。在这里我们主要学习它的多模态特征的交互和融合方式。

摘要

视觉对话系统是一个具有长上下文(问答历史记录)的多模态任务，同时每次作答也需要抽取、组合来自多模态数据的特征而后进行推理来得到答案。在视觉对话系统中，传统的基于最大似然估计的方法只从积极的回答中学习，而忽略了消极的消极，因此倾向于产生安全的或通用的回答(即回答不会出错，但也没有什么有价值信息)。为了解决这个问题，我们提出了一种全新的训练模式并结合加权似然估计的新方法。在此基础上，设计了自适应多模态推理模块，可自动适应各种对话场景并选择相应的信息。

引言

多模态推理涉及从多模态输入中提取和组合有用的信息，它被广泛应用于视觉和语言的交叉领域，对于VD任务，推理可以应用于图像(I)、问题(Q)和历史对话内容(H)。在前人的工作中，多模态信息的推理路径曾被手工设计为" Q − > H − > I Q->H->I Q−>H−>I"，之后再被细化成" Q − > I − > H − > Q Q->I->H->Q Q−>I−>H−>Q“甚至是” Q − > I − > H Q->I->H Q−>I−>H"，与以往的工作不同，本文提出了一种不预先定义推理顺序的自适应推理方案。

方法

通用的自适应的对话系统 Generative VD System
问题的定义
初始化的输入是一张图像和相应的caption。在第 t t t个回合中，模型能够获取到的输入包括图像I，历史"ground-truth"对话 H t − 1 H_{t-1} Ht−1，即
多模态融合(四)Generative Visual Dialogue System viaWeighted Likelihood Estimation
C是该图像的caption，以及从第1回合到第 t − 1 t-1 t−1回合的问答句子对。在每一回合中，均从包含N个候选句子的集合中选择一个作为回答，即 A t = { A t 1 , A t 2 , . . . , A t N } A_t = \{A_t^1,A_t^2,...,A_t^N\} At={At1,At2,...,AtN}
示意图
多模态融合(四)Generative Visual Dialogue System viaWeighted Likelihood Estimation

方法

多模态自适应推理

本文提出的多模态自适应推理方案如下图所示。
多模态融合(四)Generative Visual Dialogue System viaWeighted Likelihood Estimation
F Q , F I , F H F_Q,F_I,F_H FQ,FI,FH分别表示从Question、Image、Dialogue History提取的特征。整个自适应多模态推理Adaptive Multi-modal Reasoning (AMR)包括两个步骤：comprehension step以及exploration step，两者以递归的方式进行。
①理解步
在对话中，由于输入的特征并非是同等重要的，理解步运用attention机制来抽取来自每个模态的信息。
②探索步
在探索步中，上一步经过attention提取到的信息在此处进行整合，并据此确定下一步注意方向。沿着推理路径，这两个步骤交替执行。

若以 λ \lambda λ标记多模态的特征类型，可以是image/question/history， F λ ∈ R N × M F_\lambda\in\R^{N\times M} Fλ∈RN×M，M是特征个数，N是每个特征的维度。按照相应的引导进行的attention操作可以记为
f λ = G u i d e d A t t ( F λ , f g ) f_\lambda=GuidedAtt(F_\lambda,f_g) fλ=GuidedAtt(Fλ,fg)
f g ∈ R N × 1 f_g\in\R^{N\times1} fg∈RN×1是指引向量，用作引导下一次迭代的attention操作(相当于根据当前三个模态的内容生成一个全局的内容向量)。GA操作可以表达为
多模态融合(四)Generative Visual Dialogue System viaWeighted Likelihood Estimation
自适应机制的创新点，是在当前的环境下进行推理时，考虑来自每一个模态特征的重要性。因此在每一步都动态赋予每个模态特征以相应的权值进行选择，而不是以(手工设计的)固定的顺序进行各个模态的处理。（在不同的文本、视觉、问题等语境下，推理路径应当是不同的，无法人为设定各模态的处理顺序）
当循环达到最大迭代次数 i m a x i_{max} imax后，退出循环，得到三个模态交互后的最终特征 E E E
E = t a n h ( W f Q I H , i m a x ) E=tanh(Wf_{QIH},i_{max}) E=tanh(WfQIH,imax)
基于极大似然估计WLE的训练模式（*）
本文对于积极回答分配权值 α m \alpha_m αm
多模态融合(四)Generative Visual Dialogue System viaWeighted Likelihood Estimation
考虑到同时存在积极回答和消极回答，因而权重分配变成

实验结果

多模态融合(四)Generative Visual Dialogue System viaWeighted Likelihood Estimation