策略梯度网络中的自动微分答案

【问题标题】：Automatic differentiation in policy gradient networks策略梯度网络中的自动微分
【发布时间】：2017-06-25 02:50:49
【问题描述】：

我确实了解策略梯度网络中的反向传播，但不确定如何使用自动区分的库。

也就是说，他们如何将其转化为监督学习问题。例如下面的代码：

Y = self.probs + self.learning_rate * np.squeeze(np.vstack([gradients]))

为什么 Y 不是 1-hot 向量所采取的行动？假设动作正确，他正在计算梯度，Y 是 one-hot 向量。然后他将其乘以相应时间步的奖励。但在训练时，他将其作为修正。我认为他应该将奖励乘以一个热向量。 https://github.com/keon/policy-gradient/blob/master/pg.py#L67

【问题讨论】：

标签： machine-learning neural-network reinforcement-learning q-learning

【解决方案1】：

Y 不是 1-hot 向量，因为它是动作概率（即self.prob）乘以其相应奖励的总和。

【讨论】：