在上一次的状态价值函数图中,对于每一个方格我们不比从头开始计算每一个值,如下图
强化学习之贝尔曼方程 8
如果我们想知道某一状态的值可以用接下来的一个状态的折扣值(图中为1)+ 立刻的回报。
强化学习之贝尔曼方程 8
这个就是贝尔曼预期方程
强化学习之贝尔曼方程 8
代表着我们可以将马尔科夫决策过程任何状态的值表示为,即时奖励和下个状态的折扣值。
强化学习之贝尔曼方程 8
如果帮到你强化学习之贝尔曼方程 8

相关文章:

  • 2021-10-04
  • 2021-11-03
  • 2021-05-26
  • 2022-01-05
  • 2021-10-03
  • 2021-07-05
  • 2021-11-25
猜你喜欢
  • 2022-12-23
  • 2021-05-09
  • 2021-07-05
  • 2021-06-15
  • 2021-10-25
  • 2021-06-06
  • 2021-05-15
相关资源
相似解决方案