课程大纲
model-based RL 概要
model-based value optimization
model-based policy optimization
case study
基于模型的强化学习概要
之前学 model-free RL 的时候
(1)从经验中利用 policy gradient 直接学习 policy
(2)利用 MC 或者 TD 学习 value function
本次课将会讲到 model-based RL【在讲 MDP 时有提到,有 model 时就可以进行策略迭代和值迭代】
(1)从经验中学习环境的 model(这一点是跟我们之前 MDP 不同之处)
(2)用学到的 model 去改进 value/policy optimization
这里一个图就可以理解上面啥意思了:
(1)图一的话 agent 就只能跟 environment 进行交互
(2)图二的话 agent 可以跟 environment 交互,也可以跟构建出来的 model 进行交互
注:本文所有内容源自于B站周博磊老师更新完的强化学习纲要课程,听完之后获益很多,本文也是分享我的听课笔记。周老师Bilibili视频个人主页:https://space.bilibili.com/511221970?spm_id_from=333.788.b_765f7570696e666f.2
感谢周老师 :)