[强化学习-7] 模型和规划(model and planning)

之前的博客都在讲从之前的experience中学习policy或者value function，这一篇博客讲解从之前的experience中学习model

何为model

一句话总结就是状态转移概率和奖励

Learning a model

状态转移概率s, a → s‘可以看作是一个density estimation问题，而奖励s, a → r可以看做是regression问题
有很多方式建模
- Table Lookup Model
- Linear Expectation Model
- Linear Gaussian Model
- Gaussian Process Model
- Deep Belief Network Model

最简单的就是Table Lookup Model，就是查表计算一下转移概率和奖励的均值
[强化学习-7] 模型和规划(model and planning)

Planning with a Model

有了model后，我们可以采用之前讲的策略迭代或者值迭代(DP类，不采样)求解了，或者根据model进行样本采样如Q-learning、SARSA、Monte-Carlo等(采样类)求解，这种采样的效率更高

Dyna

[强化学习-7] 模型和规划(model and planning)

先从真实experience中学习value function，然后再学习model，然后根据model采样出模拟的experience，根据真实的和模拟的experience对value function进行进一步的学习

[强化学习-7] 模型和规划(model and planning)

总结

[强化学习-7] 模型和规划(model and planning)