课程大纲

model-based RL 概要

model-based value optimization

model-based policy optimization

case study

基于模型的强化学习概要

之前学 model-free RL 的时候

(1)从经验中利用 policy gradient 直接学习 policy

(2)利用 MC 或者 TD 学习 value function

本次课将会讲到 model-based RL【在讲 MDP 时有提到,有 model 时就可以进行策略迭代和值迭代】

(1)从经验中学习环境的 model(这一点是跟我们之前 MDP 不同之处)

(2)用学到的 model 去改进 value/policy optimization

这里一个图就可以理解上面啥意思了:

(1)图一的话 agent 就只能跟 environment 进行交互

(2)图二的话 agent 可以跟 environment 交互,也可以跟构建出来的 model 进行交互

7. 强化学习之——基于模型的强化学习

 

 

 

 

注:本文所有内容源自于B站周博磊老师更新完的强化学习纲要课程,听完之后获益很多,本文也是分享我的听课笔记。周老师Bilibili视频个人主页:https://space.bilibili.com/511221970?spm_id_from=333.788.b_765f7570696e666f.2

感谢周老师 :)

 

相关文章: