1. ICLR2016- lstm-based deep learning models for nonfactoid answer selection
提出3个模型
QA-LSTM:利用参数共享的bi-lstm与(mean、max与concatenation之类)pooling操作获得问句与答句的分布式表示,然后进行问句与答句的相似匹配
QA-LSTM/CNN:在QA-LSTM中加入卷积层,对句子中连续m个单词进行卷积以发现局部连接模式:将句子分为若干个大小为m的窗口(
QA-LSTM with attention: 答句t时隐变量
-
ma,q(t)=tanh(Wamha(t)+Wqmoq) -
sa,q(t)∝exp(WTmsma,q(t)) -
h~a(t)=ha(t)sa,q(t)
本质是:在进行bi-lstm的每一步时都引入问句对该时间步的隐表示进行修正.
2.15-Applying deep learning to answer selection A study and an open task
提出6网络结构进行问答相似度的计算,其中Q与A分别为问句与答句,HL是对分布式表示的各个词
构造hinge loss损失函数:
3. 16-IARNN(Inner Attention RNN)模型
文献:Inner Attention based Recurrent Neural Networks for Answer Selection
IARNN-WORD模型
对RNN网络的输入进行修正,即:利用问题部分的注意来答句中单词进行distill.
其中
IARNN-CONTEXT模型
动机:the answer sentence may consist of consecutive words that are related to the question, and a word may be irrelevant to question by itself but relevant in the context of answer sentence(单个词语与问句可能没有关系,但多个词语连在一起就可能与问句相关)
方法:引入场景信息来计算各词语的权重。权重计算方法修改如下:
IARNN-GATE模型
将GRU模型中的内部激励单元加入注意信息: