【发布时间】:2019-03-19 09:01:15
【问题描述】:
我正在阅读Silver et al (2012) "Temporal-Difference Search in Computer Go",并试图了解资格跟踪算法的更新顺序。
在论文的算法 1 和 2 中,在更新资格跟踪之前更新了权重。我想知道这个顺序是否正确(算法 1 的第 11 和 12 行,以及算法 2 的第 12 和 13 行)。
考虑lambda=0 的极端情况,参数不会使用初始状态-动作对更新(因为e 仍然为0)。所以我怀疑这个顺序可能应该是相反的。
有人可以澄清一下吗?
我觉得这篇论文对学习强化学习领域很有指导意义,所以想详细了解一下这篇论文。
如果有更合适的平台问这个问题,也请告诉我。
【问题讨论】:
-
供以后参考;像这样的问题可能更适合 ai.stackexchange.com 而不是 StackOverflow。我们还支持那里的问题/答案中的正确数学!
标签: algorithm machine-learning reinforcement-learning sarsa monte-carlo-tree-search