【问题标题】:Criteria for convergence in Q-learningQ-learning 中的收敛标准
【发布时间】:2020-04-29 18:13:30
【问题描述】:

我正在试验 Q 学习算法。我从不同的来源阅读并理解了该算法,但是,似乎没有明确的数学支持的收敛标准。

大多数消息来源建议迭代多次(例如,N = 1000),而其他人则表示,当所有状态和动作对 (s, a) 被无限频繁地访问时,就可以实现收敛。但这里的问题是,多少是无限频繁的。对于想要手动解决算法的人来说,最好的标准是什么?

如果有人能就此对我进行教育,我将不胜感激。我也很感激任何有关此效果的文章。

问候。

【问题讨论】:

  • 这与 Stack Overflow IMO 无关。
  • @drtamakloe 如果以下答案之一解决了您的问题,请单击旁边的复选标记考虑accepting it。这向更广泛的社区表明您找到了解决方案。

标签: algorithm machine-learning artificial-intelligence reinforcement-learning q-learning


【解决方案1】:

Q-Learning 正是强化学习的重大突破,因为它是第一个保证收敛到最优策略的算法。它最初是在(Watkins, 1989) 中提出的,它的收敛证明在(Watkins & Dayan, 1992) 中进行了细化。

简而言之,必须满足两个条件才能保证收敛在极限内,这意味着策略将在任意长时间后任意接近最优策略。请注意,这些条件并没有说明多快该策略将接近最优策略。

  1. 学习率必须接近零,但不能太快。 形式上,这要求学习率的总和必须发散,但它们的平方和必须收敛。具有这些属性的示例序列是1/1, 1/2, 1/3, 1/4, ...
  2. 每个状态-动作对都必须被无限频繁地访问。 这有一个精确的数学定义:每个动作在每个状态中被策略选择的概率必须非零, ie π(s, a) > 0 对于所有 (s, a)。在实践中,使用 ε-greedy 策略(其中ε > 0)可确保满足此条件。

【讨论】:

    【解决方案2】:

    当学习曲线变得平坦且不再增加时,任何 RL 算法都会收敛。但是,对于每种情况,都应考虑特定元素,因为它取决于您的算法和问题的规范。

    理论上,已经证明 Q-Learning 会向最优解收敛,但如何以保证收敛的方式调整 ? 和 ? 等超参数通常并不明显。

    请记住,Q-learning 是一种旧算法并且有点过时,它是学习 RL 的好方法,但有更好的方法来解决现实生活中的问题。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-12-31
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-04-12
      相关资源
      最近更新 更多