奖赏设计 累计奖赏和折扣累计奖赏 数学上看,折扣奖赏机制可以将累计回报转化为递推的形式: Gt=Rt+γ(Rt+1+γRt+2+...)=Rt+γGt+1Gt=Rt+γ(Rt+1+γRt+2+...)=Rt+γGt+1 折扣是一种固定效应模型 奖赏设计:不要平移,奖励做什么而不是怎么做 奖赏设计:缩放,塑形 贝尔曼等式 状态值函数 值函数的贝尔曼期望等式 动作值函数 两者关系 动作值函数的贝尔曼期望等式 衡量策略优劣 贝尔曼最优等式 广义策略迭代GPI 策略评估 策略改进 GPI 策略迭代 值迭代 对比 相关文章: