《强化学习》 DP动态规划

奖赏设计

累计奖赏和折扣累计奖赏

《强化学习》 DP动态规划

数学上看，折扣奖赏机制可以将累计回报转化为递推的形式：

\begin{aligned} G_{t} & = R_{t} + γ (R_{t + 1} + γ R_{t + 2} + . . .) \\ = R_{t} + γ G_{t + 1} \end{aligned}

折扣是一种固定效应模型

《强化学习》 DP动态规划

奖赏设计：不要平移，奖励做什么而不是怎么做

《强化学习》 DP动态规划

奖赏设计：缩放，塑形

《强化学习》 DP动态规划

贝尔曼等式

状态值函数

《强化学习》 DP动态规划

值函数的贝尔曼期望等式

《强化学习》 DP动态规划

动作值函数

《强化学习》 DP动态规划

两者关系

《强化学习》 DP动态规划

动作值函数的贝尔曼期望等式

《强化学习》 DP动态规划

衡量策略优劣

《强化学习》 DP动态规划

贝尔曼最优等式

《强化学习》 DP动态规划

广义策略迭代GPI

策略评估

《强化学习》 DP动态规划

策略改进

《强化学习》 DP动态规划

GPI

《强化学习》 DP动态规划

策略迭代

《强化学习》 DP动态规划

值迭代

《强化学习》 DP动态规划

对比

《强化学习》 DP动态规划

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode