• 首页
  • 前端技术
  • 编程语言
  • 人工智能
  • 运维知识
  • 资源下载
  • 常用小工具
  • 技术问答

Value-Based

2021-04-26

文章目录

  • 蒙特卡洛(监督学习方法)
  • TD(单步更新)(更常用)有时候游戏太长了,玩不到结尾
  • Q value

蒙特卡洛(监督学习方法)

让 VπV^πVπ无限接近GaG_aGa​(也就是∑t=1nrt\sum_{t=1}^{n}r^t∑t=1n​rt)
Value-Based

TD(单步更新)(更常用)有时候游戏太长了,玩不到结尾

losslossloss = Vπ(St)−Vπ(St+1)V^π(S_t)-V^π(S_{t+1})Vπ(St​)−Vπ(St+1​)
Value-Based

Q value

Value-Based

相关文章:

猜你喜欢
相关资源
相似解决方案
热门标签
Java Python linux javascript Mysql C# Docker 算法 前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库 数据结构 大数据 js 机器学习 微服务 Android Go 程序员 面试 JVM ASP.net core 云原生 人工智能 后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习 多线程 React 架构 devops 爬虫 云计算 Spring Boot LeetCode
By © 2026 likecs 版权所有,
本站所有数据收集于网络如有侵犯到您的权益请联系 进行下架处理1。
粤ICP备22038628号Powered By WordPress