之前的博客都在讲从之前的experience中学习policy或者value function,这一篇博客讲解从之前的experience中学习model

何为model

一句话总结就是状态转移概率和奖励

[强化学习-7] 模型和规划(model and planning)

Learning a model

状态转移概率s, a → s‘可以看作是一个density estimation问题,而奖励s, a → r可以看做是regression问题
有很多方式建模
- Table Lookup Model
- Linear Expectation Model
- Linear Gaussian Model
- Gaussian Process Model
- Deep Belief Network Model

最简单的就是Table Lookup Model,就是查表计算一下转移概率和奖励的均值
[强化学习-7] 模型和规划(model and planning)

Planning with a Model

有了model后,我们可以采用之前讲的策略迭代或者值迭代(DP类,不采样)求解了,或者根据model进行样本采样如Q-learning、SARSA、Monte-Carlo等(采样类)求解,这种采样的效率更高

Dyna

[强化学习-7] 模型和规划(model and planning)

先从真实experience中学习value function,然后再学习model,然后根据model采样出模拟的experience,根据真实的和模拟的experience对value function进行进一步的学习

[强化学习-7] 模型和规划(model and planning)

总结

[强化学习-7] 模型和规划(model and planning)

相关文章: