Q学习：改变环境后的再学习答案

【问题标题】：Q learning: Relearning after changing the environmentQ学习：改变环境后的再学习
【发布时间】：2015-02-26 22:41:12
【问题描述】：

我在一个大小为 (n x n) 的网格上实现了 Q 学习，中间的单个奖励为 100。代理通过以下代理学习 1000 个 epoch 以达到目标：他以 0.8 的概率选择状态-动作值最高的移动，并选择 0.2 的随机移动。移动后，状态-动作值由 Q 学习规则更新。

现在我做了以下实验：除了底部的邻居之外，目标旁边的所有字段都获得了 -100 的奖励。在学习了 1000 个 epoch 后，agent 明显避免了走上坡路，而最频繁地从下坡路到达目标。

学习后，将底部邻居的奖励设置为 -100，将顶部邻居的奖励设置回 0，并在坚持状态动作值图的同时再次开始学习 1000 个 epoch。这真的很可怕！代理需要很长时间才能找到目标（在 9x9 网格上最多 3 分钟）。检查路径后，我发现代理花费大量时间在 (0,0)->(1,0)->(0,0)->(1,0) 等两个状态之间跳跃...

我很难想象这种行为是否有意义。有人遇到过这样的情况吗？

【问题讨论】：

标签： algorithm machine-learning artificial-intelligence reinforcement-learning q-learning

【解决方案1】：

Q-learning 依赖于探索。

如果您使用 e-greedy 并且您已显着降低了 epsilon，则代理不太可能能够适应。

如果您在状态空间中的变化远离学习策略所遵循的轨迹，则可能难以到达这些区域。

我建议您查看您的 epsilon 值以及随着时间的推移您减少它们的速度。

【讨论】：

【解决方案2】：

我想更多的信息可以帮助我更加确定，但你所描述的是我所期望的。智能体已经学习（并且很好地学习）了通往目标的特定路径。现在你已经改变了。我的直觉告诉我，这对代理来说比简单地移动目标更难，因为你已经改变了如何你希望它达到目标。

一旦移动“墙”，您就可以在多次迭代中增加动作选择策略的随机性。这可能会减少代理找到通往目标的新路径所需的时间。

【讨论】：

【解决方案3】：

这对于标准 Q 学习算法来说非常典型。正如Concurrent Q-Learning: ReinforcementLearning for Dynamic Goalsand Environments中所述：

强化学习技术，例如时间差异学习，已被证明在任务中表现出良好的表现涉及到一个固定目标的导航。但是，如果目标位置被移动，先前学习的信息干扰了任务寻找新的目标位置和性能相应地受到影响。

但是，有不同的算法，例如上面论文中描述的那个在这种情况下做得更好。

【讨论】：

【解决方案4】：

你能提供代码吗？对我来说，这种行为看起来令人惊讶。

恕我直言，代理应该能够忘记以前学过的知识。在强化学习中不应该有“自信”之类的东西。网格看起来像

00000
00--0
0-+-0
0---0
00000

在最后的尝试中。在最短路径上随机撞到目标的概率是0.2*1/3 * (0.8+0.2*1/9)。基本上随机走对角线然后向下走。因此，算法应该慢慢更新状态(1,1) 的Q 值。实际上更新这个值的值是5%。如果你的学习率不是太低，它最终会更新。请注意，所有其他到达目标的路径都会慢慢地将其他路径拉向零。

你说它在前两个状态之间跳跃。这向我表明您没有折扣系数。这可能会导致(0,0) 和(1,0) 两个状态具有相当好的Q 值但这些是“自我奖励”的情况。或者你可能忘记在更新函数中减去旧值

【讨论】：