所谓PPO(ProximalPolicyOptimization),就是在策略梯度的基础上,使其可以具有Off-Policy的学习能力,同时保证动作执行者和学习者之间差距不要太大,稳扎稳打。 目录 1.Policy Gradient 2.PPO(ProximalPolicyOptimization) 参考: 1.Policy Gradient 增加一个衰减discount 2.PPO(ProximalPolicyOptimization) 参考: 李宏毅深度强化学习(国语)课程(2018) 相关文章: