介绍

越看到后面,我越发觉得RL更像是一种思想,Policy,State都需要自己进行定义,计算value function的过程也有公式,但是不如深度学习那么直接。

之前的章节是说到如何从经验中得到policy和value function,这一节是如何从经验中获取模型。然后使用模型加经验来更新policy和value function。model-based RL没有对environment进行建模,直接通过经验得到value function或者是policy。Model-based method会对环境进行建模。reward和state就可以通过这个模型推断出来。

基于模型的RL

Reinforcement learning: integrating learning and planning, exploitation and exploration

基于模型的RL可以通过监督学习学习模型,然后对模型的未知可以进行推测。但是缺点在于模型和value function都变成了近似计算,这很可能会增加error。

模型M就是MDP

整体框架

experience有两个来源:真实的experience和simulated experience。Model-based RL是先从real experience学到模型,再从simulated experience中获得value function(policy)

然后Dyna的value function(policy)是从simulated experience中获得。
Reinforcement learning: integrating learning and planning, exploitation and exploration

Dyna-Q Learning 算法:
Reinforcement learning: integrating learning and planning, exploitation and exploration

基于仿真的搜索

根据模型仿真episodes,然后再使用Model-Free RL去simulate episodes。

TD search,每次通过Sarsa来更新delta Q:
Reinforcement learning: integrating learning and planning, exploitation and exploration

Exploration and Exploitation

exploitation: 找到针对当前信息最好的决策
exploration: 获取更多信息,去探索有可能的新的决策

相关文章:

  • 2022-01-01
  • 2021-11-21
  • 2021-05-10
  • 2021-08-17
  • 2021-05-13
  • 2022-01-11
  • 2021-05-28
  • 2021-09-24
猜你喜欢
  • 2021-07-27
  • 2021-08-18
  • 2021-10-06
  • 2021-11-28
  • 2021-08-27
  • 2021-04-18
  • 2018-10-29
相关资源
相似解决方案