Attentive Pooling Networks论文讲解

这篇论文是做是一个做问答对匹配的模型，在多个回答里选出正确的那个答案，整篇论文相对简单。

之前的问答对匹配模型是将CNN或者BiLSTM提取后的特征向量相互做余弦相似度，这篇论文的创新是加上了Attention层和使用不同的pooling层，column-wise max pooling 和 row-wise max pooling

之前的模型是

本篇论文的模型是

Attentive Pooling Networks论文讲解

Q 和 A 是问题和答案通过CNN或者BiLSTM得到的特征向量，将Q和A做一个词对齐： Attentive Pooling Networks论文讲解 , 其中 U 是参数矩阵，这个参数矩阵是不断学习的，这其实就是Attention机制中的计算score的方式。

接着通过column-wise max pooling 和 row-wise max pooling生成两个向量，

Attentive Pooling Networks论文讲解

然后通过softmax归一化后再分别与Q和A进行相乘，得到两个向量 Attentive Pooling Networks论文讲解和，最后再将两个向量做余弦距离。

这个就是这篇论文的思想。