【发布时间】:2019-07-26 19:03:09
【问题描述】:
对于书中的 λ-return 算法的在线版本,为什么您需要重新访问每个地平线上的情节中的所有时间步长,我遇到了一些问题:Reinforcement Learning: An Introduction, 2nd Edition, Chapter 12, Sutton & Barto
这里所有的权重向量序列 W1, W2,..., Wh 对于每个地平线 h 都从 W0 开始(上一集结束时的权重)。然而,它们似乎并不依赖于前一阶段的回报/权重,并且可以独立计算。在我看来,这只是为了澄清起见,您只能在剧集结束时计算最终水平 h=T 的值。这将与算法的离线版本所做的相同,实际更新规则是:
毫不奇怪,在 19 个状态的随机游走示例中,两种算法的结果完全相同:
在书中提到,在线版本的性能应该更好一点,在这种情况下,它应该与真正的在线 TD(λ) 具有相同的结果。在实现后者时,它确实优于离线版本,但我无法弄清楚简单而缓慢的在线版本。
任何建议将不胜感激。
谢谢
【问题讨论】:
标签: lambda return offline reinforcement-learning online-algorithm