QLearning 在重复模拟中的使用答案

【问题标题】：QLearning usage on a repetitive simulationQLearning 在重复模拟中的使用
【发布时间】：2015-03-05 11:00:12
【问题描述】：

我在模拟中使用 Q-Learning 算法。该模拟的迭代次数有限（600 到 700 次）。该模拟的多次运行（100 次运行）激活了学习过程。我是强化学习的新手，我有一个关于如何在这种模拟上使用探索/利用的问题（我正在使用 e-greedy 探索）。我正在使用递减探索，我想知道是否应该在整个模拟运行中使用递减探索，或者在每次模拟运行时减少它（每次模拟运行将 epsilon 启动到 0.9，然后减少它）。谢谢你

【问题讨论】：

标签： simulation reinforcement-learning q-learning

【解决方案1】：

您不需要如此高的 epsilon 启动。将 q 值初始化为非常高可能会更好，这样未知的 q 值总是会在至少探索过一次的 q 值之上被挑选出来。

考虑到您的状态空间，在整个运行或单个运行后减少它并不重要，但单独听起来是更好的选择。

减少它的速度还取决于世界的情况以及智能体的学习速度。我试图让我的 alpha 和 epsilon 与错误相关，但这样做很棘手。

【讨论】：