答案选取(基于嵌入表示的相似度量)

1. ICLR2016- lstm-based deep learning models for nonfactoid answer selection

提出3个模型
QA-LSTM：利用参数共享的bi-lstm与（mean、max与concatenation之类）pooling操作获得问句与答句的分布式表示，然后进行问句与答句的相似匹配
答案选取(基于嵌入表示的相似度量)
QA-LSTM/CNN：在QA-LSTM中加入卷积层，对句子中连续m个单词进行卷积以发现局部连接模式：将句子分为若干个大小为m的窗口（Hm(t)=[H(t),H(t+1),⋯,H(t+m−1)]）,利用卷积核F=[F(0),F(1),⋯,F(m−1)]进行卷积操作oF(t)=tanh[(∑i=0m−1h(t+i)TF(i))+b],最后用k-maxpooling进行pooling
答案选取(基于嵌入表示的相似度量)
QA-LSTM with attention: 答句t时隐变量ha(t)与问句嵌入表示oq, 则单词级注意模型为如下

ma,q(t)=tanh(Wamha(t)+Wqmoq)
sa,q(t)∝exp(WTmsma,q(t))
h~a(t)=ha(t)sa,q(t)
本质是：在进行bi-lstm的每一步时都引入问句对该时间步的隐表示进行修正.

2.15-Applying deep learning to answer selection A study and an open task

提出6网络结构进行问答相似度的计算，其中Q与A分别为问句与答句，HL是对分布式表示的各个词x进行非线性变换tanh(Wx+b), CNN核函数的本质是N∗M矩阵，N为变换后的词嵌入空间维数，M类似k-gram中的k(用于捕捉序列数据的局部模式),P表示1-max pooling操作， T为非线性tanh操作。
构造hinge loss损失函数：L=max{0,m−cos(VQ,VA+)+cos(VQ,VA−)}
答案选取(基于嵌入表示的相似度量)

3. 16-IARNN(Inner Attention RNN)模型

文献：Inner Attention based Recurrent Neural Networks for Answer Selection

IARNN-WORD模型

对RNN网络的输入进行修正，即：利用问题部分的注意来答句中单词进行distill.

αt=σ(rTqMqixt): 借助Mqi将问题注意rq 投影到词嵌入空间中的一个点，并与答句中的当前单词xt 做内积.
x~t=αt∗xt: 将标量αt作为xt 的权重来修正
其中
答案选取(基于嵌入表示的相似度量)

IARNN-CONTEXT模型

动机：the answer sentence may consist of consecutive words that are related to the question, and a word may be irrelevant to question by itself but relevant in the context of answer sentence（单个词语与问句可能没有关系，但多个词语连在一起就可能与问句相关）
方法：引入场景信息来计算各词语的权重。权重计算方法修改如下：
αt=σ((Mhcht−1+Mqcrq)xt)
答案选取(基于嵌入表示的相似度量)

IARNN-GATE模型

将GRU模型中的内部激励单元加入注意信息：
zt=σ(Wxzxt+Whzht−1+Mqzrq)
ft=σ(Wxfxt+Whfht−1+Mqfrq)
答案选取(基于嵌入表示的相似度量)