百度强化学习7日课程笔记

百度强化学习7日打卡营课程笔记

上周参加了百度的强化学习7日打卡营，科老师的讲解非常有条理，且将代码与知识点结合起来，使得不擅长公式推导的小白得以了解强化学习领域的入门知识以及百度的PaddlePaddle框架，并且有机会自己尝试调试简单的强化学习程序。
现将部分课程笔记整理如下，共5节课。
第一课-强化学习（RL）概况
百度强化学习7日课程笔记
第二课-基于表格型方法求解RL
应用场景：离散状态+离散动作，确定性策略

On-policy → SARSA（更新值函数时，下一步策略采用实际策略输出的action）
Off-policy → Q-learning（更新值函数时，下一步策略采用当前Q函数下理论最优的action）
百度强化学习7日课程笔记
第三课-基于神经网络求解RL
应用场景：连续状态+离散动作，确定性策略
相比表格型方法的改进：适用于连续状态或者状态空间较大的场景，对于未训练的状态泛化较好

DQN算法

第四课-基于策略梯度求解RL
应用场景：连续状态+离散动作（策略参数化），随机策略
相比值函数方法的改进：值函数方法无法处理随机策略
百度强化学习7日课程笔记
Reinforce算法

第五课-连续动作空间上求解RL
应用场景：连续状态+连续动作，确定性策略
相比值函数方法的改进：适用于连续动作空间

DDPG算法

以上是百度强化学习课程的笔记。

附上以前的笔记，虽然字很丑。
百度强化学习7日课程笔记

相关文章：

2021-07-11
2021-06-09
2021-12-17
2021-05-04
2021-07-05
2021-05-08
2021-07-14

猜你喜欢

2022-01-15
2021-06-13
2021-12-25
2021-08-28
2021-11-25
2021-10-26
2021-09-23

相关资源

下载 2023-01-04
下载 2021-06-27
下载 2022-12-11

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode