Value-Based

文章目录

蒙特卡洛(监督学习方法)
TD(单步更新)(更常用)有时候游戏太长了,玩不到结尾
Q value

蒙特卡洛(监督学习方法)

让 $V^π$ 无限接近 $G_a$ (也就是 $\sum_{t=1}^{n}r^t$ )
Value-Based

TD(单步更新)(更常用)有时候游戏太长了,玩不到结尾

$loss$ = $V^π(S_t)-V^π(S_{t+1})$
Value-Based

Q value

Value-Based

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode