论文总结之问答生成篇2.0

8.Exploiting Persona Information for Diverse Generation of Conversational Responses
论文总结之问答生成篇2.0
本模型主要特点在于中间变量z的训练，这里涉及到的数学知识见https://zhuanlan.zhihu.com/p/26898768
其他的特点，就在于用性格编码，跟情感、关键词等思想差不多。
主要有两大步：第一步即对性格文本和上下文
（1）将每一个性格文本编码成空间向量和上下文向量做softmax得到匹配权重。
然后将性格文本再做处理和匹配权重相乘累加。
最后用公式6堆叠3次u3。
（2）将上一步堆叠得到的u3和z做MLP，选择最有可能的性格向量
解码策略上也有特点，两种解码模式。
第一个：软策略
两个词表，分别是性格词表和其他词表；
通过状态编码分别计算两个词表词汇生成概率（这个跟seq2seq一样），稍微有点不一样的是这个模型还会通过公式（10）即3.3卷积后的性格向量和状态做匹配度计算，得到两个表类型的概率，然后公式（11）得到最终词汇分布。
第2个：强制策略
就是将选出来的性格，做rnn后直接用
更详细介绍见哈工大：https://www.jiqizhixin.com/articles/2019-06-03-17

——————————————END8———————————————

9.Generate, Delete and Rewrite: A Three-Stage Framework for Improving Persona Consistency of Dialogue Generation
论文总结之问答生成篇2.0

这一篇是上一篇的改进升级，都是哈工大创造（不得不说，哈工大计算机真的很牛皮）

（1）生成阶段：
persona和query使用transformer方法各自做一个selfattention编码。
解码阶段，首先，上一步生成的target做自我注意（shifted right就是每一步生成后右移继续生成）；然后和persona、query分别做互相多头注意力；最后这两个在做一次多头注意力；前向传播后一步步得到response原型y1
（2）删除阶段：
persona和y1分别做自我注意力编码得到A、B，然后对A矩阵中每个向量取平均后和B相乘得到Wb权重，再Wb*B得到B2。A也是这样处理得到A2。（这个操作的就是将persona和y1的不相关的字符寻找出来了）；
接着将B2和A2分别相乘、相加、连接后，丢进MLP里，判断他们是相符、中立还是矛盾。tanh、softmax后得到删除（实际上是屏蔽）矛盾字符后的response，即y2
（3）重写阶段：
上一步生成的target做自我注意力；再和persona做多头注意力；再和y2做多头注意力；前向传播后得到最终结果y3
——————————————END9———————————————