强化学习

  • model-based
  • model-free(value-based,policy-based)

DQN、DDPG、PG、PPO、ES、TD3、SAC、A2C、IMPALA、MADDPG

Agent的两种学习方案

  • value-based
  • policy-based(πθ(atst)\pi_\theta(a_t|s_t))

百度PaddlePaddle强化学习七日打卡营

PARL

快速搭建并行框架

  • 在PARL中,并行仅需一个修饰符(parl.remote_class)

强化学习MDP四元组<S,A,P,R><S,A,P,R>

MDP:马尔科夫决策过程
S:state 状态
A:action 动作
R:reward 奖励
P:probability 状态转移概率

百度PaddlePaddle强化学习七日打卡营

在线学习VS离线学习

百度PaddlePaddle强化学习七日打卡营

Sarsa-learn函数

百度PaddlePaddle强化学习七日打卡营

离散动作VS连续动作

百度PaddlePaddle强化学习七日打卡营

Policy-gradient

百度PaddlePaddle强化学习七日打卡营

DQN 百度PaddlePaddle强化学习七日打卡营

run_episode function

百度PaddlePaddle强化学习七日打卡营

折扣因子γ\gamma

百度PaddlePaddle强化学习七日打卡营

相关文章:

  • 2021-05-01
  • 2022-01-11
  • 2021-08-09
  • 2021-04-08
  • 2022-01-20
  • 2021-08-07
  • 2021-09-05
猜你喜欢
  • 2021-07-23
  • 2021-06-13
  • 2021-08-13
  • 2021-08-10
  • 2021-10-30
  • 2021-11-30
  • 2021-12-17
相关资源
相似解决方案