【发布时间】:2018-04-12 16:07:42
【问题描述】:
我正在使用 DQN 算法在我的环境中训练代理,如下所示:
- 代理通过选择离散动作(左、右、上、下)来控制汽车
- 目标是在不撞到其他车辆的情况下以所需的速度行驶
- 状态包含代理的汽车和周围汽车的速度和位置
- 奖励:-100 碰撞其他车辆,根据与所需速度的绝对差值获得正奖励(如果以所需速度行驶,则 +50)
我已经调整了一些超参数(网络架构、探索、学习率),这给了我一些下降结果,但仍然没有达到应有的水平。每集的奖励在训练期间不断增加。 Q 值也在收敛(见图1)。然而,对于所有不同的超参数设置,Q-loss 不会收敛(见图2)。我认为,Q-loss 缺乏收敛性可能是获得更好结果的限制因素。
Q-value of one discrete action durnig training
我正在使用每 20k 时间步更新一次的目标网络。 Q-loss 计算为 MSE。
您知道 Q-loss 不收敛的原因吗? Q-Loss 是否必须收敛于 DQN 算法?我想知道,为什么大多数论文都没有讨论 Q-loss。
【问题讨论】:
标签: tensorflow deep-learning reinforcement-learning q-learning