【发布时间】:2019-05-06 07:29:52
【问题描述】:
我正在训练一个 DQN,并且 Q 值不断下降。曲线看起来很奇怪(见下文)。
每一步都对应于目标网络的更新。 发生这种情况的任何可能原因?
【问题讨论】:
标签: deep-learning reinforcement-learning pytorch
我正在训练一个 DQN,并且 Q 值不断下降。曲线看起来很奇怪(见下文)。
每一步都对应于目标网络的更新。 发生这种情况的任何可能原因?
【问题讨论】:
标签: deep-learning reinforcement-learning pytorch
该步骤是否对应于 Target Q 网络更新?如果是这样,请尝试:
1) 不那么频繁地更新 TargetQ 网络
2) 增加折扣系数(例如,如果您使用的是 0.5,则提高到 0.99)
3) 以 (1 - tau)old + tauv1
的形式对 TargetQ 网络使用平滑更新【讨论】: