论文解读:Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEs

题目翻译:使用信息最大化分层条件采用可变自动编码器从上下文中生成不同且信息一致的QA对
作者: Dong Bok Lee, Seanie Lee, Woo Tae Jeong, Donghwan Kim, Sung Ju Hwang

点击论文下载地址

摘要

问答(QA)中最关键的挑战之一是标签数据的稀缺性,因为获取带有人工注释的目标文本域的问题答案(QA)对非常昂贵。解决该问题的另一种方法是使用来自问题上下文或大量非结构化文本(例如Wikipedia)的自动生成的有质量的问答对。在这项工作中,我们提出了一种分层的条件变分自动编码器(HCVAE),用于在给定非结构化文本作为上下文的情况下生成QA对,同时最大化所生成的QA对之间的相互信息以确保其一致性。通过仅使用生成的QA对(基于QA的评估)评估QA模型(基于BERT的性能)或同时使用生成的和评估的QA模型(基于BERT的)的性能,我们在多个基准数据集上验证了我们的信息最大化分层条件变分自动编码器(Info- HCVAE)。人工标记的配对(半监督学习),以针对最新的基线模型进行训练。结果表明,我们的模型在两个任务的所有基线上均获得了令人印象深刻的性能提升,仅使用了一部分数据进行了训练
贡献:

  1. 提出了一种新颖的分层变体框架,用于从单个上下文生成不同的QA对,据我们所知,这是第一个用于问题-答案对生成(QAG)的概率生成模型。
  2. 提出了一个InfoMax规则化器,该规则化器通过最大化生成的QA对之间的相互信息来有效地增强它们之间的一致性。 这是解决QAG的QA对之间一致性的一种新颖方法。
  3. 通过完全使用生成的QA对(基于QA的评估)训练新模型,或同时使用真实的和生成的QA对(半监督QA),在几个基准数据集上评估我们的框架。 我们的模型在两项任务上均实现了令人印象深刻的性能,大大优于现有的QAG基准。

1介绍

提取式问答(QA)是自然语言理解的最基本,最重要的任务之一。由于深度神经网络的复杂性不断提高,以及在大规模语料库上预先训练的语言模型中知识转移的使用,最新的质量保证模型已经在多个基准数据集上达到了人类水平的绩效。但是,对于大规模数据质量检查数据集的可用性,对于最近的数据驱动模型的成功也至关重要。要将最新的质量检查模型部署到实际应用中,我们需要构建具有大量质量检查对的高质量数据集以对其进行训练;然而,这将是昂贵的,需要大量的人力和时间。问题生成(QG)或问题答案对生成(QAG)是克服此数据短缺挑战的一种流行方法。最近的一些作品借助半无监督的学习,通过利用大量未标记的文本(例如Wikipedia)借助QG系统生成合成的QA对。但是,现有的QG系统忽略了一个重要的问题,即从包含非结构化文本的上下文中生成QA对本质上是一对多的问题。已知序列到序列模型可以生成通用序列,而不会产生太大的变化,因为它们采用最大似然估计进行训练。对于QAG,这是次优的选择,因为提供给模型的上下文通常包含更丰富的信息,可以利用这些信息来生成多个QA对。
为了解决上述问题,我们提出了一种用于QA对生成的新型概率深度生成模型。具体来说,我们的模型是一个分层的条件变分自编码器(HCVAE),具有两个独立的潜在空间,用于根据上下文条件进行问答,其中答案潜在空间还位于问题潜在空间上。在生成过程中,此分层条件VAE首先通过从两个潜在空间中进行采样来生成给定上下文的答案,然后再生成给定答案和上下文的问题。这种概率方法使模型可以每次针对上下文的不同部分生成不同的QA对。
QG任务的另一个关键挑战是确保问题和相应答案之间的一致性,因为它们在语义上是相互依赖的,以便从给定答案和上下文中可以回答问题。在本文中,我们通过最大化生成的QA对之间的互信息(Belghazi等人,2018; Hjelm等人,2019; Yeh和Chen,2019)解决这个一致性问题。我们凭经验验证了所提出的相互信息最大化极大地改善了QA对的一致性。结合层次CVAE和InfoMax正则化工具,我们提出了一种新颖的概率生成QAG模型,我们将其称为信息最大化层次条件变分自动编码器(Info-HCVAE)。即使在很短的时间内,我们的Info-HCVAE也会生成多样且一致的QA对(请参见表1)。
但是,我们应该如何定量测量生成的质量检查对的质量?文本生成的流行评估指标(例如BLEU,ROUGE,METEOR)只能说明生成的QA对与文本生成的相似程度。真实(GT)质量检查对,并且与它们的实际质量没有直接关系。因此,我们使用了由Zhang和Bansal(2019)提出的基于QA的评估(QAE)指标,该指标可衡量生成的QA对与GT QA对的分布的匹配程度。然而,在已经有GT标签的半监督学习环境中,我们需要不同于GT QA对的新颖QA对,才能使附加的QA对真正有效。因此,我们提出了一种新颖的度量标准,反向QAE(R-QAE),如果生成的QA对是新颖且多样化的,则该度量很低。我们在SQuAD v1.1,自然问题和TriviaQA数据集上通过QAE和R验证了我们的QAG模型。 -QAE使用BERT-base(Devlin et al。,2019)作为QA模型。我们的QAG模型获得了较高的QAE和较低的R-QAE,并且在使用少量上下文的情况下,其性能远远超过了最新的基准。使用SQuAD作为标记数据集的三个数据集的半监督QA的进一步实验结果表明,我们的模型相对于最新的基线取得了显着改善。 EM中的Trivia质量检查)。
论文解读:Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing...

2相关工作

3方法

我们的目标是生成多样化且具有一致性的QA对,以解决复杂的QA任务中的数据短缺难题。形式上,给定一个包含M个令牌的上下文c,c =(c1,…,cM),我们要生成QA对(x,y),其中x =(x1,…,xN)是包含 N个令牌,y =(y1,…,yL)是包含L个令牌的对应答案。我们的目标是通过学习问答的条件联合分布来解决QAG任务,其中给定上下文p(x,y | c),我们可以从中采样QA对:
(x,y)〜p(x,y | c)
我们用概率深度生成模型估计p(x,y | c),下面将对其进行描述。

3.1分层条件VAE

我们建议使用可变自动编码器(VAE)框架近似未知条件联合分布p(x,y | c)。 但是,我们没有直接为问题和答案学习共同的潜在空间,而是在具有条件的独立VAE框架的分层条件VAE框架中对p(x,y | c)进行建模,如下所示:
论文解读:Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing...
其中zx和zy分别是问题和答案的隐变量,而pψ(zx | c)和pψ(zy | zx,c)是遵循各向同性高斯分布和分类分布的条件先验条件(图1-(a))。 我们分解问题和答案的潜在空间,因为答案始终是上下文c的有限范围,可以通过分类分布很好地建模,而连续的潜在空间是更合适的问题选择,因为可能存在单一上下文中无限的有效问题。 此外,我们设计了QA联合分配的双向依赖流。通过利用层次结构,我们使答案隐变量依赖于pψ(zy | zx,c)中的问题隐变量,并通过对问题x〜pθ(x | zx,y,c)进行采样来实现反向依赖 。 然后,我们使用变化后验qφ(•)使证据下界(ELBO)最大化,如下所示(完整的推导在附录A中提供):
论文解读:Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing...
其中θ,φ和ψ分别是生成网络,后网络和先验网络的参数。 我们将此模型称为“分层条件变体自动编码器”(HCVAE)框架。 图2显示了我们的HCVAE的定向图形模型。 生成过程如下:

  1. 样本问题L.V.:zx〜pψ(zx | c)
  2. 样本答案L.V.:zy〜pψ(zy | zx,c)
  3. 生成答案:y〜pθ(y | zy,c)
  4. 生成问题:x〜pθ(x | zx,y,c)
    论文解读:Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing...
    论文解读:Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing...

嵌入

对于后验网络和先验网络,我们使用BERT(Devlin等人,2019)的预训练词嵌入网络,而整个BERT被用作生成网络的上下文化词嵌入模型。对于答案编码,我们使用BERT的二进制令牌类型ID。
具体来说,我们将所有上下文标记都编码为0,但作为答案范围一部分的标记(图1-(a)或-(c)中突出显示的上下文词)被编码为1s。然后,我们将单词令牌ID,令牌类型ID和位置ID的序列输入到嵌入层中,以对可感知答案的上下文进行编码。我们会在训练中填入HCVAE中的所有嵌入层。

先验网络

我们使用两个不同的条件先验网络pψ(zx | c),pψ(zy | zx,c)对上下文相关的先验模型进行建模(图1-(a)中的虚线)。为了获得pψ(zx | c)的各向同性高斯N(µ,σ2I)的参数,我们使用双向LSTM(Bi-LSTM)将上下文的词嵌入编码为隐藏的表示形式,然后将它们放入多层感知器(MLP)。我们根据分类分布Cat(π)对pψ(zy | zx,c)进行建模,方法是根据zx和使用另一个MLP的上下文的隐藏表示来计算参数π。

后验网络

我们使用两个条件后验网络qφ(zx | x,c),qφ(zy | zx,y,c)来接近问题x和y的潜在变量的真实后验分布。我们使用两个Bi-LSTM编码器,根据给定的词嵌入,输出问题和上下文的隐藏表示。然后,我们将这两个隐藏的表示形式馈入MLP,以获得高斯分布的参数μ’和σ’ (图1-(a)的右上角)。由于随机采样过程zx〜qφ(zx | x,c)是不可微的,因此我们使用重新参数化技巧(Kingma and Welling,2014)来训练带有反向传播的模型。我们使用另一个Bi-LSTM来将单词答案上下文的单词嵌入到隐藏表示中进行编码。然后,我们将隐藏的表示形式和zx馈入MLP以计算参数π。分类分布(图1-(a)的右下角)。我们使用带有gumbel-softmax的分类重新参数化技巧通过样本离散潜变量进行反向传播。

答案生成

网络由于我们考虑提取QA,因此我们可以将pθ(y | zy,c)分解为pθ(ys | zy,c)和pθ(ye | zy,c),其中ys和ye是坐标的开始和结束位置答案范围(图1-(b)中突出显示的单词)。为了获得两者的MLE估计量,我们首先将上下文c编码为Ec = {ec 1,… ,ec M}的上下文化词嵌入与预先训练的BERT。我们使用启发式匹配层(Mou et al。,2016)和Bi-LSTM计算上下文和隐变量zy的最终隐藏表示:
论文解读:Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing...
其中zy是线性变换的,并且H∈Rdy×M是最终的隐藏表示。然后,我们将H馈入两个单独的线性层以预测ys和ye。

问题产生网络

我们主要通过采用基准来设计QG网络的编解码器架构(Zhao等人,2018; Zhang和Bansal,2019)。对于编码,我们使用预训练的BERT将特定于答案的上下文编码为上下文词嵌入,然后使用两层Bi-LSTM将其编码为隐藏表示(图1-(c))。我们对隐藏的表示采用门控的自我注意机制(Wang等,2017),以更好地捕获上下文中的长期依赖关系,以获得新的隐藏表示ˆH∈Rdx×M。解码器是两层LSTM,它接收潜在变量zx作为初始状态。它使用注意力机制(Luong et al。,2015),使用第j个解码器隐藏表示dj∈Rdx(图1-(c))在每个解码步骤将ˆH动态聚合到sj的上下文向量中。
然后,我们将dj和sj输入到具有最大输出**的MLP中(Goodfellow等,2013),以计算最终的隐藏表示ˆdj,如下所示:
论文解读:Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing...
其中zx被线性变换ex是第j 个问题词的嵌入。词汇表上的概率向量计算为p(xj | x <j,zx,y,c)= softmax(Weˆdj)。我们初始化权重矩阵We作为预训练词嵌入矩阵,并在训练过程中对其进行修复。此外,我们使用复制机制,以便该模型可以直接从上下文中复制令牌。我们还贪婪地解码问题,以确保所有随机性都来自潜在变量的采样。

3.2一致的QA对生成和互信息最大化

QAG任务最重要的挑战之一就是要在生成的问题及其相应的答案之间保持一致性。 它们在语义上应该是一致的,以便可以根据问题和上下文预测答案。 然而,由于缺乏强制执行这种一致性的机制,神经QG或QAG模型通常会生成与上下文和答案无关的问题(Zhang and Bansal,2019)。 假设一个负责任的QA对具有较高的MI,我们将通过最大化生成的QA对的互信息(MI)来解决此问题。 由于MI的精确计算是难处理的,因此我们使用神经近似法。 虽然存在许多不同的近似值(Belghazi等人,2018; Hjelm等人,2019),但我们使用Yeh和Chen(2019)基于Jensen-Shannon Divergence提出的估计:
论文解读:Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing...

其中EP和EN表示对正面和负面例子的期望。 我们通过对小批量中的QA对进行改组来生成否定示例,这样一个问题便与答案随机相关。 直观地讲,函数g(•)就像一个二进制分类器,用于区分QA对是否来自联合分配。 我们凭经验发现以下g(•)有效地实现了我们一致QAG的目标:
论文解读:Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing...

其中 和 是分别代表问题和答案的描述。 与ELBO结合,最终我们的Info-HCVAE的目标如下: 论文解读:Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing...
其中Θ包括φ,ψ,θ和W的所有参数,而λ控制MI最大化的效果。 在所有实验中,我们始终将λ设置为1

相关链接汇总

论文下载地址:https://arxiv.org/abs/2005.13837

变分自编码器解析:https://www.cnblogs.com/weilonghu/p/12567793.html

条件变分自编码器(CVAE)及相关论文ELBO推导:https://blog.csdn.net/mch2869253130/article/details/105229613/?utm_medium=distribute.pc_relevant.none-task-blog-baidujs-2

重新参数化技巧:https://zhuanlan.zhihu.com/p/21741426

相关文章: