任务定义:输入前提文本(premise)和假设文本(hypothesis),预测假设文本和前提文本之间的关系——蕴含、矛盾或中立。

现有的模型计算量非常庞大,模型的参数非常多。与现有的方法相比,该方法仅依赖于对齐方式,并且对于输入文本完全是可分解的。
【论文阅读】 A Decomposable Attention Model for Natural Language Inference
模型架构如上图所示,输入两个句子,句子中的每个词都用一个embedding向量表示,首先基于neural attention创建一个软对齐矩阵;然后通过软对齐将整个task分解成可以独立解决的子问题;最终,这些子问题的结果被整合起来从而预测最终的分类结果。除此之外,还应用了intra-sentence attention机制,以在对其步骤之前为模型赋予更丰富的子结构编码。
该方法完成了与普通LSTM编码器相同的工作,同时可在整个句子长度上进行平均并行化,这可以在低延迟设置中实现显著的加速。该方法也在SNLI数据集上实现了SOTA。

训练数据由三个部分组成:{a(n),b(n),y(n)}n=1N\left\{\mathbf{a}^{(n)}, \mathbf{b}^{(n)}, \mathbf{y}^{(n)}\right\}_{n=1}^{N},a和b分别代表前提文本和假设文本,y是编码输出标签的向量,C是输出类别的数量,所以y是一个C维的0,1向量。训练目标是根据输入的a和b预测y。

核心模型有三个组成成分,它们被一起训练:

  • Attend:用attention机制软对齐a和b中的元素,并将问题分解成对对齐的子短语之间的比较。首先通过eij:=F(aˉi,bˉj):=F(aˉi)TF(bˉj)e_{i j}:=F^{\prime}\left(\bar{a}_{i}, \bar{b}_{j}\right):=F\left(\bar{a}_{i}\right)^{T} F\left(\bar{b}_{j}\right)获得由函数F计算的非标准化注意力权重,其中,F是带有ReLU**的前馈神经网络。注意力权重被标准化为:βi:=j=1bexp(eij)k=1bexp(eik)bˉj\beta_{i}:=\sum_{j=1}^{\ell_{b}} \frac{\exp \left(e_{i j}\right)}{\sum_{k=1}^{\ell_{b}} \exp \left(e_{i k}\right)} \bar{b}_{j}αj:=i=1aexp(eij)k=1aexp(ekj)aˉi\alpha_{j}:=\sum_{i=1}^{\ell_{a}} \frac{\exp \left(e_{i j}\right)}{\sum_{k=1}^{\ell_{a}} \exp \left(e_{k j}\right)} \bar{a}_{i},这里的βi\beta_{i}bˉ\bar{b}中与aˉi\bar{a}_{i}对齐的子短语。
  • Compare:分别比较每一对对齐的子短语,也就是句子a中的一个词与句子b中这个词对应的加权词向量进行比较。即:
    v1,i:=G([aˉi,βi])i[1,,a]v2,j:=G([bˉj,αj])j[1,,b]\begin{array}{ll}\mathbf{v}_{1, i}:=G\left(\left[\bar{a}_{i}, \beta_{i}\right]\right) & \forall i \in\left[1, \ldots, \ell_{a}\right] \\ \mathbf{v}_{2, j}:=G\left(\left[\bar{b}_{j}, \alpha_{j}\right]\right) & \forall j \in\left[1, \ldots, \ell_{b}\right]\end{array}
  • Aggregate:整合之前得到的结果,并对最终的label进行预测。首先通过相加对之前得到的两个比较向量的集合进行整合,即v1=i=1av1,i\mathbf{v}_{1}=\sum_{i=1}^{\ell_{a}} \mathbf{v}_{1, i}以及v2=j=1bv2,j\mathbf{v}_{2}=\sum_{j=1}^{\ell_{b}} \mathbf{v}_{2, j};然后将求和的结果输入前馈神经网络进行分类:y^=H([v1,v2])\hat{\mathbf{y}}=H\left(\left[\mathbf{v}_{1}, \mathbf{v}_{2}\right]\right)

在训练过程中,使用多分类交叉熵损失作为损失函数:L(θF,θG,θH)=1Nn=1Nc=1Cyc(n)logexp(y^c)c=1Cexp(y^c)L\left(\theta_{F}, \theta_{G}, \theta_{H}\right)=\frac{1}{N} \sum_{n=1}^{N} \sum_{c=1}^{C} y_{c}^{(n)} \log \frac{\exp \left(\hat{y}_{c}\right)}{\sum_{c^{\prime}=1}^{C} \exp \left(\hat{y}_{c^{\prime}}\right)}

参考资料:A Decomposable Attention Model for Natural Language Inference

相关文章: