【问题标题】:Q-value keeps stepping down when training a DQN训练 DQN 时 Q 值不断下降
【发布时间】:2019-05-06 07:29:52
【问题描述】:

我正在训练一个 DQN,并且 Q 值不断下降。曲线看起来很奇怪(见下文)。

每一步都对应于目标网络的更新。 发生这种情况的任何可能原因?

【问题讨论】:

    标签: deep-learning reinforcement-learning pytorch


    【解决方案1】:

    该步骤是否对应于 Target Q 网络更新?如果是这样,请尝试:

    1) 不那么频繁地更新 TargetQ 网络

    2) 增加折扣系数(例如,如果您使用的是 0.5,则提高到 0.99)

    3) 以 (1 - tau)old + tauv1

    的形式对 TargetQ 网络使用平滑更新

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2019-01-28
      • 2020-10-28
      • 1970-01-01
      • 2021-05-14
      • 1970-01-01
      • 2018-04-12
      • 1970-01-01
      • 2019-12-29
      相关资源
      最近更新 更多