【问题标题】:RL Policy Gradient: How to deal with rewards that are strictly positive?RL Policy Gradient:如何处理严格为正的奖励?
【发布时间】:2018-09-24 02:50:14
【问题描述】:

简而言之:

在策略梯度方法中,如果奖励始终为正(从不为负),则策略梯度将始终为正,因此它将不断使我们的参数变大。这使得学习算法毫无意义。我们如何解决这个问题?


详细说明:

在“David Silver 的 RL 课程”第 7 讲(YouTube 上)中,他介绍了策略梯度的 REINFORCE 算法(这里只展示了 1 个步骤):

实际的政策更新是:

注意这里的 v_t 代表我们得到的奖励。假设我们在玩一个奖励总是正的游戏(例如,累积分数),并且永远不会有任何负奖励,梯度总是正的,因此 theta 会不断增加!那么我们如何处理永不改变符号的奖励呢?

【问题讨论】:

    标签: reinforcement-learning


    【解决方案1】:

    Theta 不是一个数字,而是一个参数化模型的数字向量。相对于您的参数的梯度可能是正的或负的。例如,考虑您的参数只是每个动作的概率。它们被限制添加到 1.0。增加一个动作的概率需要至少一个其他动作的概率降低。

    【讨论】:

      猜你喜欢
      • 2022-11-02
      • 2023-04-08
      • 2017-12-25
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-10-28
      • 2022-07-14
      • 1970-01-01
      相关资源
      最近更新 更多