DPL综述:
参考:https://zhuanlan.zhihu.com/p/52692962
dialogue act对应于DPL,表明在限制条件(之前的累积目标、对话历史等)下系统要执行的动作(接下来的策略),这个动作可能不是追求当前收益最大化,而是未来收益最大化。
state:状态St是一种包含
0时刻到t时刻的对话历史、
用户目标
意图和槽值对的数据结构
它的输入是Un(n时刻的意图和槽值对,也叫用户Action)、
An-1(n-1时刻的系统Action)
Sn-1(n-1时刻的状态)
输出是Sn(n时刻的状态)。
S???? = {Gn,Un,Hn},Gn是用户目标、Un同上、Hn是聊天的历史,Hn= {U0, A0, U1, A1, … , U????−1, A????−1},
S???? =f(S????−1,A????−1,U????)。那Sn到底是根据什么计算的呢?
DST涉及到两方面内容:状态表示、状态追踪。另外为了解决领域数据不足的问题,DST还有很多迁移学习(Transfer Learning)方面的工作。比如线性模型迁移学习、高斯过程迁移学习、BCM迁移学习。
DPL:
除了以上方法,还有 Online Training DPL (Su et al., Interspeech 2015 )(Su et al., ACL 2016);Interactive RL DPL (Shah et al., 2016)等。这些方法都有很不错的参考价值,但是他们不是只关注DPL一方面了,还会关注对话系统中的其他东西,所以不再单独讲解,感兴趣的可以私下找我一起讨论和学习。