百度PaddlePaddle强化学习七日打卡营

百度PaddlePaddle强化学习七日打卡营

强化学习
Agent的两种学习方案
PARL
强化学习MDP四元组 $<S,A,P,R>$
在线学习VS离线学习
Sarsa-learn函数
离散动作VS连续动作
Policy-gradient
DQN ![在这里插入图片描述](https://img-blog.csdnimg.cn/20200627111651123.JPG?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2JyaWRnZXFpcWk=,size_16,color_FFFFFF,t_70)
run_episode function
折扣因子 $\gamma$

强化学习

model-based
model-free（value-based，policy-based）

DQN、DDPG、PG、PPO、ES、TD3、SAC、A2C、IMPALA、MADDPG

Agent的两种学习方案

value-based
policy-based( $\pi_\theta(a_t|s_t)$ )

百度PaddlePaddle强化学习七日打卡营

PARL

快速搭建并行框架

在PARL中，并行仅需一个修饰符（parl.remote_class）

强化学习MDP四元组 $<S,A,P,R>$

MDP:马尔科夫决策过程
S:state 状态
A:action 动作
R:reward 奖励
P:probability 状态转移概率

百度PaddlePaddle强化学习七日打卡营

在线学习VS离线学习

百度PaddlePaddle强化学习七日打卡营

Sarsa-learn函数

百度PaddlePaddle强化学习七日打卡营

离散动作VS连续动作

百度PaddlePaddle强化学习七日打卡营

Policy-gradient

百度PaddlePaddle强化学习七日打卡营

DQN

run_episode function

百度PaddlePaddle强化学习七日打卡营

折扣因子 $\gamma$

百度PaddlePaddle强化学习七日打卡营

相关文章：

2021-05-01
2022-01-11
2021-08-09
2021-04-08
2022-01-20
2021-08-07
2021-09-05

猜你喜欢

2021-07-23
2021-06-13
2021-08-13
2021-08-10
2021-10-30
2021-11-30
2021-12-17

相关资源

下载 2023-01-11
下载 2021-06-05
下载 2022-12-14

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode