【问题标题】:QLearning usage on a repetitive simulationQLearning 在重复模拟中的使用
【发布时间】:2015-03-05 11:00:12
【问题描述】:

我在模拟中使用 Q-Learning 算法。该模拟的迭代次数有限(600 到 700 次)。该模拟的多次运行(100 次运行)激活了学习过程。 我是强化学习的新手,我有一个关于如何在这种模拟上使用探索/利用的问题(我正在使用 e-greedy 探索)。 我正在使用递减探索,我想知道是否应该在整个模拟运行中使用递减探索,或者在每次模拟运行时减少它(每次模拟运行将 epsilon 启动到 0.9,然后减少它)。 谢谢你

【问题讨论】:

    标签: simulation reinforcement-learning q-learning


    【解决方案1】:

    您不需要如此高的 epsilon 启动。将 q 值初始化为非常高可能会更好,这样未知的 q 值总是会在至少探索过一次的 q 值之上被挑选出来。

    考虑到您的状态空间,在整个运行或单个运行后减少它并不重要,但单独听起来是更好的选择。

    减少它的速度还取决于世界的情况以及智能体的学习速度。我试图让我的 alpha 和 epsilon 与错误相关,但这样做很棘手。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2020-08-03
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-10-01
      相关资源
      最近更新 更多