训练 DQN 时 Q 值不断下降

【问题标题】：Q-value keeps stepping down when training a DQN训练 DQN 时 Q 值不断下降
【发布时间】：2019-05-06 07:29:52
【问题描述】：

我正在训练一个 DQN，并且 Q 值不断下降。曲线看起来很奇怪（见下文）。

每一步都对应于目标网络的更新。发生这种情况的任何可能原因？

【问题讨论】：

【解决方案1】：

该步骤是否对应于 Target Q 网络更新？如果是这样，请尝试：

1) 不那么频繁地更新 TargetQ 网络

2) 增加折扣系数（例如，如果您使用的是 0.5，则提高到 0.99）

3) 以 (1 - tau)old + tauv1

的形式对 TargetQ 网络使用平滑更新

【讨论】：