【发布时间】:2015-03-05 11:00:12
【问题描述】:
我在模拟中使用 Q-Learning 算法。该模拟的迭代次数有限(600 到 700 次)。该模拟的多次运行(100 次运行)激活了学习过程。 我是强化学习的新手,我有一个关于如何在这种模拟上使用探索/利用的问题(我正在使用 e-greedy 探索)。 我正在使用递减探索,我想知道是否应该在整个模拟运行中使用递减探索,或者在每次模拟运行时减少它(每次模拟运行将 epsilon 启动到 0.9,然后减少它)。 谢谢你
【问题讨论】:
标签: simulation reinforcement-learning q-learning