Reinforcement learning: integrating learning and planning, exploitation and exploration

介绍
基于模型的RL
整体框架
基于仿真的搜索
Exploration and Exploitation

介绍

越看到后面，我越发觉得RL更像是一种思想，Policy，State都需要自己进行定义，计算value function的过程也有公式，但是不如深度学习那么直接。

之前的章节是说到如何从经验中得到policy和value function，这一节是如何从经验中获取模型。然后使用模型加经验来更新policy和value function。model-based RL没有对environment进行建模，直接通过经验得到value function或者是policy。Model-based method会对环境进行建模。reward和state就可以通过这个模型推断出来。

基于模型的RL

Reinforcement learning: integrating learning and planning, exploitation and exploration

基于模型的RL可以通过监督学习学习模型，然后对模型的未知可以进行推测。但是缺点在于模型和value function都变成了近似计算，这很可能会增加error。

模型M就是MDP

整体框架

experience有两个来源：真实的experience和simulated experience。Model-based RL是先从real experience学到模型，再从simulated experience中获得value function（policy）

然后Dyna的value function（policy）是从simulated experience中获得。
Reinforcement learning: integrating learning and planning, exploitation and exploration

Dyna-Q Learning 算法：
Reinforcement learning: integrating learning and planning, exploitation and exploration

基于仿真的搜索

根据模型仿真episodes，然后再使用Model-Free RL去simulate episodes。

TD search，每次通过Sarsa来更新delta Q：
Reinforcement learning: integrating learning and planning, exploitation and exploration

Exploration and Exploitation

exploitation：找到针对当前信息最好的决策
exploration：获取更多信息，去探索有可能的新的决策