强化学习算法分类总结

A2C，A3C，PPO1，PPO2 ：策略函数的优化(πθ(a|s))

Q-learing : 动作值函数的优化(Qθ(s,a))

DDPG，SAC ：结合策略函数和动作值函数(πθ(a|s)+Qθ(s,a))

MPC(模型预测控制) ：纯动态规划

MBMF ：在一些深度强化学习的标准基准任务上，基于学习到的环境进行模型预测控制

ExIt / AlphaZero ：算法用这种算法训练深层神经网络来玩 Hex /专家迭代

MBVE ：用假数据增加真实经验/免模型方法的数据增强

World Models ：全部用假数据来训练智能体，所以被称为：“在梦里训练”/免模型方法的数据增强

强化学习算法分类总结