奖赏设计

累计奖赏和折扣累计奖赏

《强化学习》 DP动态规划
《强化学习》 DP动态规划
《强化学习》 DP动态规划
数学上看,折扣奖赏机制可以将累计回报转化为递推的形式:

Gt=Rt+γ(Rt+1+γRt+2+...)=Rt+γGt+1

折扣是一种固定效应模型

《强化学习》 DP动态规划

奖赏设计:不要平移,奖励做什么而不是怎么做

《强化学习》 DP动态规划

奖赏设计:缩放,塑形

《强化学习》 DP动态规划

贝尔曼等式

状态值函数

《强化学习》 DP动态规划

值函数的贝尔曼期望等式

《强化学习》 DP动态规划

动作值函数

《强化学习》 DP动态规划

两者关系

《强化学习》 DP动态规划

动作值函数的贝尔曼期望等式

《强化学习》 DP动态规划

衡量策略优劣

《强化学习》 DP动态规划

贝尔曼最优等式

《强化学习》 DP动态规划

广义策略迭代GPI

策略评估

《强化学习》 DP动态规划
《强化学习》 DP动态规划

策略改进

《强化学习》 DP动态规划
《强化学习》 DP动态规划
《强化学习》 DP动态规划

GPI

《强化学习》 DP动态规划
《强化学习》 DP动态规划

策略迭代

《强化学习》 DP动态规划

值迭代

《强化学习》 DP动态规划

对比

《强化学习》 DP动态规划

相关文章: