学习笔记:
Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016

参照

需要了解强化学习的数学符号,先看看这里:

off-policy的近似方法

尽管可以使用第6,7章的方法,修改成为off-policy的近似方法,但是效果不好。
主要原因是:行为策略的分布和目标策略的分布不一致。

off-policy的近似方法的研究现在处于领域的前沿。主要有两个方向:

  • 使用重要样本的方法,扭曲样本的分布成为目标策略的分布。这样就可以使用半梯度递减方法收敛。
  • 开发一个真正的梯度递减方法,这个方法不依赖于任何分布。

原书这章还远远没有写完!
这章先停在这里了。

相关文章:

  • 2022-01-30
  • 2021-09-24
  • 2021-04-25
  • 2021-07-07
  • 2021-05-21
  • 2021-04-24
  • 2021-05-13
  • 2021-07-04
猜你喜欢
  • 2021-11-04
  • 2022-03-02
  • 2021-10-23
  • 2021-09-17
  • 2021-05-23
  • 2021-12-04
  • 2021-11-04
相关资源
相似解决方案