大型网格世界环境的 DQN 探索策略答案

【问题标题】：DQN exploration strategy for large grid-world environment大型网格世界环境的 DQN 探索策略
【发布时间】：2019-05-07 15:13:40
【问题描述】：

我的任务涉及大型网格世界类型的环境（网格大小可能是 30x30、50x50、100x100，最大为 200x200）。此网格中的每个元素都包含一个 0 或一个 1，它们在每一集中随机初始化。我的目标是训练一个代理，它从网格上的随机位置开始，导航到值为 1 的每个单元格，并将其设置为 0。（请注意，通常，网格大多为 0，稀疏的 1） .

我正在尝试用 5 个动作训练一个 DQN 模型来完成这项任务：

1) 向上移动

2) 向右移动

3) 向下移动

4) 向左移动

5) 清除（将当前元素设置为 0）

我给模型的“状态”是当前网格（NxM 张量）。我通过将一个扁平的 one-hot (1x(N*N)) 张量连接到我的卷积特征向量的输出（在 FC 层之前）来提供代理的当前位置。

但是，我发现 epsilon-greedy 探索策略不会导致足够的探索。此外，在训练的早期（当模型基本上选择随机动作时），伪随机动作组合最终会“取消”，并且我的代理没有远离起始位置足够远来发现存在例如，在网格的不同象限中值为 1 的单元格。我正在使用非卷积 MLP 模型的 5x5 网格上获得收敛策略，因此我认为我的实现是合理的。

1) 我如何鼓励不总是“取消”的探索，只探索离我的起始位置非常局部的区域？

2) 这种方法是完成这项任务的好方法吗（假设我想使用 RL）？

3) 我认为尝试使用“连续”动作空间（模型输出“1”元素的索引）将更难以实现收敛。总是尝试使用离散的动作空间是否明智？

【问题讨论】：

标签： machine-learning deep-learning reinforcement-learning

【解决方案1】：

探索是强化学习的一大挑战。但是，对于简单的e-greedy，您的问题似乎并不难，尤其是在您具有初始随机状态的情况下。首先，您可以使用一些技巧：

不要立即开始学习。在执行任何更新之前“预热”您的数据集并收集足够的样本（这也是在原始 DQN 论文中完成的）。
降低噪音。您可以使用剧集步骤减小 e 并将其重置为下一集，或者从大的 e 开始并随着学习迭代而减小它。
调整每集的步数。有时最好缩短情节并更频繁地重置环境，以便更多地探索网格（感谢随机初始状态）。

关于您的问题：

1) 上述技巧应该可以解决这个问题。有一些方法可以增强探索以访问状态空间的未探索区域，例如“内在动机”和“好奇心”。 This 是一篇关于它的好论文。

2）您的问题是完全离散的并且不是那么大，因此价值（或策略）迭代（它只是动态规划）会更好。

3) 这取决于您的问题。离散化是否足够精确，可以让您发挥最佳性能？如果是这样，那就去吧。（但对于更难的问题，通常情况并非如此）。

【讨论】：