对话系统日更（1）-DPL综述

DPL综述：

参考：https://zhuanlan.zhihu.com/p/52692962
对话系统日更（1）-DPL综述
dialogue act对应于DPL，表明在限制条件（之前的累积目标、对话历史等）下系统要执行的动作（接下来的策略），这个动作可能不是追求当前收益最大化，而是未来收益最大化。
state：状态St是一种包含
0时刻到t时刻的对话历史、
用户目标
意图和槽值对的数据结构
它的输入是Un（n时刻的意图和槽值对，也叫用户Action）、
An-1（n-1时刻的系统Action）
Sn-1（n-1时刻的状态）
输出是Sn（n时刻的状态）。
S???? = {Gn,Un,Hn}，Gn是用户目标、Un同上、Hn是聊天的历史，Hn= {U0, A0, U1, A1, … , U????−1, A????−1}，
S???? =f(S????−1,A????−1,U????)。那Sn到底是根据什么计算的呢？

DST涉及到两方面内容：状态表示、状态追踪。另外为了解决领域数据不足的问题，DST还有很多迁移学习(Transfer Learning)方面的工作。比如线性模型迁移学习、高斯过程迁移学习、BCM迁移学习。

DPL：
对话系统日更（1）-DPL综述

除了以上方法，还有 Online Training DPL （Su et al., Interspeech 2015 ）（Su et al., ACL 2016）；Interactive RL DPL （Shah et al., 2016）等。这些方法都有很不错的参考价值，但是他们不是只关注DPL一方面了，还会关注对话系统中的其他东西，所以不再单独讲解，感兴趣的可以私下找我一起讨论和学习。