强化学习读书笔记 - 11 - off-policy的近似方法

学习笔记：
Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016

参照

需要了解强化学习的数学符号，先看看这里：

强化学习读书笔记 - 00 - 术语和数学符号

off-policy的近似方法

尽管可以使用第6,7章的方法，修改成为off-policy的近似方法，但是效果不好。
主要原因是：行为策略的分布和目标策略的分布不一致。

off-policy的近似方法的研究现在处于领域的前沿。主要有两个方向：

使用重要样本的方法，扭曲样本的分布成为目标策略的分布。这样就可以使用半梯度递减方法收敛。
开发一个真正的梯度递减方法，这个方法不依赖于任何分布。

原书这章还远远没有写完！
这章先停在这里了。

相关文章：

2022-01-30
2021-09-24
2021-04-25
2021-07-07
2021-05-21
2021-04-24
2021-05-13
2021-07-04

猜你喜欢

2021-11-04
2022-03-02
2021-10-23
2021-09-17
2021-05-23
2021-12-04
2021-11-04

相关资源

下载 2023-02-06
下载 2022-12-23
下载 2021-06-26

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode