7. 强化学习之——基于模型的强化学习

model-based RL 概要

model-based value optimization

model-based policy optimization

case study

之前学 model-free RL 的时候

（1）从经验中利用 policy gradient 直接学习 policy

（2）利用 MC 或者 TD 学习 value function

本次课将会讲到 model-based RL【在讲 MDP 时有提到，有 model 时就可以进行策略迭代和值迭代】

（1）从经验中学习环境的 model（这一点是跟我们之前 MDP 不同之处）

（2）用学到的 model 去改进 value/policy optimization

这里一个图就可以理解上面啥意思了：

（1）图一的话 agent 就只能跟 environment 进行交互

（2）图二的话 agent 可以跟 environment 交互，也可以跟构建出来的 model 进行交互

7. 强化学习之——基于模型的强化学习

注：本文所有内容源自于B站周博磊老师更新完的强化学习纲要课程，听完之后获益很多，本文也是分享我的听课笔记。周老师Bilibili视频个人主页：https://space.bilibili.com/511221970?spm_id_from=333.788.b_765f7570696e666f.2

感谢周老师 :)