• 首页
  • 前端技术
  • 编程语言
  • 人工智能
  • 运维知识
  • 资源下载
  • 常用小工具
  • 技术问答

【学习笔记】PPO(Proximal Policy Optimization) - 李宏毅

2021-09-05

  所谓PPO(ProximalPolicyOptimization),就是在策略梯度的基础上,使其可以具有Off-Policy的学习能力,同时保证动作执行者和学习者之间差距不要太大,稳扎稳打。

目录

  • 1.Policy Gradient
  • 2.PPO(ProximalPolicyOptimization)
  • 参考:

1.Policy Gradient

【学习笔记】PPO(Proximal Policy Optimization) - 李宏毅
【学习笔记】PPO(Proximal Policy Optimization) - 李宏毅
【学习笔记】PPO(Proximal Policy Optimization) - 李宏毅

【学习笔记】PPO(Proximal Policy Optimization) - 李宏毅

【学习笔记】PPO(Proximal Policy Optimization) - 李宏毅
增加一个衰减discount
【学习笔记】PPO(Proximal Policy Optimization) - 李宏毅

【学习笔记】PPO(Proximal Policy Optimization) - 李宏毅

2.PPO(ProximalPolicyOptimization)

【学习笔记】PPO(Proximal Policy Optimization) - 李宏毅
【学习笔记】PPO(Proximal Policy Optimization) - 李宏毅

【学习笔记】PPO(Proximal Policy Optimization) - 李宏毅

【学习笔记】PPO(Proximal Policy Optimization) - 李宏毅

【学习笔记】PPO(Proximal Policy Optimization) - 李宏毅

【学习笔记】PPO(Proximal Policy Optimization) - 李宏毅

【学习笔记】PPO(Proximal Policy Optimization) - 李宏毅

参考:

  • 李宏毅深度强化学习(国语)课程(2018)

相关文章:

猜你喜欢
相关资源
相似解决方案
热门标签
Java Python linux javascript Mysql C# Docker 算法 前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库 数据结构 大数据 js 机器学习 微服务 Android Go 程序员 面试 JVM ASP.net core 云原生 人工智能 后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习 多线程 React 架构 devops 爬虫 云计算 Spring Boot LeetCode
By © 2026 likecs 版权所有,
本站所有数据收集于网络如有侵犯到您的权益请联系 进行下架处理1。
粤ICP备22038628号Powered By WordPress