【发布时间】:2020-04-29 18:13:30
【问题描述】:
我正在试验 Q 学习算法。我从不同的来源阅读并理解了该算法,但是,似乎没有明确的数学支持的收敛标准。
大多数消息来源建议迭代多次(例如,N = 1000),而其他人则表示,当所有状态和动作对 (s, a) 被无限频繁地访问时,就可以实现收敛。但这里的问题是,多少是无限频繁的。对于想要手动解决算法的人来说,最好的标准是什么?
如果有人能就此对我进行教育,我将不胜感激。我也很感激任何有关此效果的文章。
问候。
【问题讨论】:
-
这与 Stack Overflow IMO 无关。
-
@drtamakloe 如果以下答案之一解决了您的问题,请单击旁边的复选标记考虑accepting it。这向更广泛的社区表明您找到了解决方案。
标签: algorithm machine-learning artificial-intelligence reinforcement-learning q-learning