【问题标题】:Q learning: Relearning after changing the environmentQ学习:改变环境后的再学习
【发布时间】:2015-02-26 22:41:12
【问题描述】:

我在一个大小为 (n x n) 的网格上实现了 Q 学习,中间的单个奖励​​为 100。代理通过以下代理学习 1000 个 epoch 以达到目标:他以 0.8 的概率选择状态-动作值最高的移动,并选择 0.2 的随机移动。移动后,状态-动作值由 Q 学习规则更新。

现在我做了以下实验:除了底部的邻居之外,目标旁边的所有字段都获得了 -100 的奖励。在学习了 1000 个 epoch 后,agent 明显避免了走上坡路,而最频繁地从下坡路到达目标。

学习后,将底部邻居的奖励设置为 -100,将顶部邻居的奖励设置回 0,并在坚持状态动作值图的同时再次开始学习 1000 个 epoch。 这真的很可怕!代理需要很长时间才能找到目标(在 9x9 网格上最多 3 分钟)。检查路径后,我发现代理花费大量时间在 (0,0)->(1,0)->(0,0)->(1,0) 等两个状态之间跳跃...

我很难想象这种行为是否有意义。有人遇到过这样的情况吗?

【问题讨论】:

    标签: algorithm machine-learning artificial-intelligence reinforcement-learning q-learning


    【解决方案1】:

    Q-learning 依赖于探索。

    如果您使用 e-greedy 并且您已显着降低了 epsilon,则代理不太可能能够适应。

    如果您在状态空间中的变化远离学习策略所遵循的轨迹,则可能难以到达这些区域。

    我建议您查看您的 epsilon 值以及随着时间的推移您减少它们的速度。

    【讨论】:

      【解决方案2】:

      我想更多的信息可以帮助我更加确定,但你所描述的是我所期望的。智能体已经学习(并且很好地学习)了通往目标的特定路径。现在你已经改变了。我的直觉告诉我,这对代理来说比简单地移动目标更难,因为你已经改变了如何你希望它达到目标。

      一旦移动“墙”,您就可以在多次迭代中增加动作选择策略的随机性。这可能会减少代理找到通往目标的新路径所需的时间。

      【讨论】:

        【解决方案3】:

        这对于标准 Q 学习算法来说非常典型。正如Concurrent Q-Learning: ReinforcementLearning for Dynamic Goalsand Environments中所述:

        强化学习技术,例如时间差异 学习,已被证明在任务中表现出良好的表现 涉及到一个固定目标的导航。但是,如果目标位置 被移动,先前学习的信息干扰了任务 寻找新的目标位置和性能相应地受到影响。

        但是,有不同的算法,例如上面论文中描述的那个在这种情况下做得更好。

        【讨论】:

          【解决方案4】:

          你能提供代码吗?对我来说,这种行为看起来令人惊讶。

          恕我直言,代理应该能够忘记以前学过的知识。在强化学习中不应该有“自信”之类的东西。网格看起来像

          00000
          00--0
          0-+-0
          0---0
          00000
          

          在最后的尝试中。 在最短路径上随机撞到目标的概率是0.2*1/3 * (0.8+0.2*1/9)。基本上随机走对角线然后向下走。因此,算法应该慢慢更新状态(1,1)Q 值。实际上更新这个值的值是5%。如果你的学习率不是太低,它最终会更新。请注意,所有其他到达目标的路径都会慢慢地将其他路径拉向零。

          你说它在前两个状态之间跳跃。这向我表明您没有折扣系数。这可能会导致(0,0)(1,0) 两个状态具有相当好的Q 值但这些是“自我奖励”的情况。或者你可能忘记在更新函数中减去旧值

          【讨论】:

            猜你喜欢
            • 2021-08-18
            • 2016-06-09
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            • 2017-02-28
            • 2017-03-17
            相关资源
            最近更新 更多