【问题标题】:Automatic differentiation in policy gradient networks策略梯度网络中的自动微分
【发布时间】:2017-06-25 02:50:49
【问题描述】:

我确实了解策略梯度网络中的反向传播,但不确定如何使用自动区分的库。

也就是说,他们如何将其转化为监督学习问题。 例如下面的代码:

Y = self.probs + self.learning_rate * np.squeeze(np.vstack([gradients]))

为什么 Y 不是 1-hot 向量所采取的行动? 假设动作正确,他正在计算梯度,Y 是 one-hot 向量。然后他将其乘以相应时间步的奖励。但在训练时,他将其作为修正。 我认为他应该将奖励乘以一个热向量。 https://github.com/keon/policy-gradient/blob/master/pg.py#L67

【问题讨论】:

    标签: machine-learning neural-network reinforcement-learning q-learning


    【解决方案1】:

    Y 不是 1-hot 向量,因为它是动作概率(即self.prob)乘以其相应奖励的总和。

    【讨论】:

      猜你喜欢
      • 2017-03-19
      • 2019-10-30
      • 2018-11-18
      • 2019-07-11
      • 2021-04-28
      • 1970-01-01
      • 2020-02-23
      • 1970-01-01
      • 2017-10-03
      相关资源
      最近更新 更多