背景

本篇论文研究的内容是视觉对话(Visual Dialogue,VD)系统。在这里我们主要学习它的多模态特征的交互和融合方式。

摘要

视觉对话系统是一个具有长上下文(问答历史记录)的多模态任务,同时每次作答也需要抽取、组合来自多模态数据的特征而后进行推理来得到答案。在视觉对话系统中,传统的基于最大似然估计的方法只从积极的回答中学习,而忽略了消极的消极,因此倾向于产生安全的或通用的回答(即回答不会出错,但也没有什么有价值信息)。为了解决这个问题,我们提出了一种全新的训练模式结合加权似然估计的新方法。在此基础上,设计了自适应多模态推理模块,可自动适应各种对话场景并选择相应的信息。

引言

多模态推理涉及从多模态输入中提取和组合有用的信息,它被广泛应用于视觉和语言的交叉领域,对于VD任务,推理可以应用于图像(I)、问题(Q)和历史对话内容(H)。在前人的工作中,多模态信息的推理路径曾被手工设计为" Q − > H − > I Q->H->I Q>H>I",之后再被细化成" Q − > I − > H − > Q Q->I->H->Q Q>I>H>Q“甚至是” Q − > I − > H Q->I->H Q>I>H",与以往的工作不同,本文提出了一种不预先定义推理顺序的自适应推理方案。

方法

通用的自适应的对话系统 Generative VD System
问题的定义
初始化的输入是一张图像和相应的caption。在第 t t t个回合中,模型能够获取到的输入包括图像I,历史"ground-truth"对话 H t − 1 H_{t-1} Ht1,即
多模态融合(四)Generative Visual Dialogue System viaWeighted Likelihood Estimation
C是该图像的caption,以及从第1回合到第 t − 1 t-1 t1回合的问答句子对。在每一回合中,均从包含N个候选句子的集合中选择一个作为回答,即 A t = { A t 1 , A t 2 , . . . , A t N } A_t = \{A_t^1,A_t^2,...,A_t^N\} At={At1,At2,...,AtN}
示意图
多模态融合(四)Generative Visual Dialogue System viaWeighted Likelihood Estimation

方法

多模态自适应推理

本文提出的多模态自适应推理方案如下图所示。
多模态融合(四)Generative Visual Dialogue System viaWeighted Likelihood Estimation
F Q , F I , F H F_Q,F_I,F_H FQ,FI,FH分别表示从Question、Image、Dialogue History提取的特征。整个自适应多模态推理Adaptive Multi-modal Reasoning (AMR)包括两个步骤:comprehension step以及exploration step,两者以递归的方式进行
①理解步
在对话中,由于输入的特征并非是同等重要的,理解步运用attention机制来抽取来自每个模态的信息
②探索步
在探索步中,上一步经过attention提取到的信息在此处进行整合,并据此确定下一步注意方向。沿着推理路径,这两个步骤交替执行。

若以 λ \lambda λ标记多模态的特征类型,可以是image/question/history, F λ ∈ R N × M F_\lambda\in\R^{N\times M} FλRN×M,M是特征个数,N是每个特征的维度。按照相应的引导进行的attention操作可以记为
f λ = G u i d e d A t t ( F λ , f g ) f_\lambda=GuidedAtt(F_\lambda,f_g) fλ=GuidedAtt(Fλ,fg)
f g ∈ R N × 1 f_g\in\R^{N\times1} fgRN×1指引向量,用作引导下一次迭代的attention操作(相当于根据当前三个模态的内容生成一个全局的内容向量)。GA操作可以表达为
多模态融合(四)Generative Visual Dialogue System viaWeighted Likelihood Estimation
自适应机制的创新点,是在当前的环境下进行推理时,考虑来自每一个模态特征的重要性。因此在每一步都动态赋予每个模态特征以相应的权值进行选择,而不是以(手工设计的)固定的顺序进行各个模态的处理。(在不同的文本、视觉、问题等语境下,推理路径应当是不同的,无法人为设定各模态的处理顺序)
当循环达到最大迭代次数 i m a x i_{max} imax后,退出循环,得到三个模态交互后的最终特征 E E E
E = t a n h ( W f Q I H , i m a x ) E=tanh(Wf_{QIH},i_{max}) E=tanh(WfQIH,imax)
基于极大似然估计WLE的训练模式(*)
本文对于积极回答分配权值 α m \alpha_m αm
多模态融合(四)Generative Visual Dialogue System viaWeighted Likelihood Estimation
考虑到同时存在积极回答和消极回答,因而权重分配变成
多模态融合(四)Generative Visual Dialogue System viaWeighted Likelihood Estimation

实验结果

多模态融合(四)Generative Visual Dialogue System viaWeighted Likelihood Estimation

相关文章:

  • 2021-11-08
  • 2022-12-23
  • 2021-04-06
  • 2021-05-24
  • 2021-06-30
  • 2021-12-23
  • 2021-08-17
  • 2021-07-27
猜你喜欢
  • 2022-12-23
  • 2021-09-10
  • 2021-04-15
  • 2021-12-02
  • 2021-12-10
  • 2021-12-18
  • 2021-06-25
相关资源
相似解决方案