知识总结:https://www.jianshu.com/p/a04a8c7bee98

A2C,A3C,PPO1,PPO2 :策略函数的优化(πθ(a|s))

Q-learing                              :  动作值函数的优化(Qθ(s,a))

DDPG,SAC                       :结合策略函数和动作值函数(πθ(a|s)+Qθ(s,a))

MPC(模型预测控制)            : 纯动态规划

MBMF                                 : 在一些深度强化学习的标准基准任务上,基于学习到的环境进行模型预测控制

ExIt  / AlphaZero                 : 算法用这种算法训练深层神经网络来玩 Hex /专家迭代

MBVE                                 : 用假数据增加真实经验/免模型方法的数据增强

World Models                     : 全部用假数据来训练智能体,所以被称为:“在梦里训练”/免模型方法的数据增强

I2A                                     

强化学习算法分类总结

相关文章:

  • 2021-08-21
  • 2021-04-03
  • 2021-09-17
  • 2021-07-19
  • 2021-07-07
  • 2021-08-25
猜你喜欢
  • 2021-08-08
  • 2021-12-21
  • 2022-12-23
  • 2021-04-23
  • 2021-07-08
  • 2021-06-15
  • 2021-11-01
相关资源
相似解决方案