强化学习之贝尔曼方程 8

在上一次的状态价值函数图中，对于每一个方格我们不比从头开始计算每一个值，如下图
强化学习之贝尔曼方程 8
如果我们想知道某一状态的值可以用接下来的一个状态的折扣值（图中为1）+ 立刻的回报。

这个就是贝尔曼预期方程

代表着我们可以将马尔科夫决策过程任何状态的值表示为，即时奖励和下个状态的折扣值。
强化学习之贝尔曼方程 8
如果帮到你

2021-10-04
2021-11-03
2021-05-26
2022-01-05
2021-10-03
2021-07-05
2021-11-25