【发布时间】:2017-06-25 02:50:49
【问题描述】:
我确实了解策略梯度网络中的反向传播,但不确定如何使用自动区分的库。
也就是说,他们如何将其转化为监督学习问题。 例如下面的代码:
Y = self.probs + self.learning_rate * np.squeeze(np.vstack([gradients]))
为什么 Y 不是 1-hot 向量所采取的行动? 假设动作正确,他正在计算梯度,Y 是 one-hot 向量。然后他将其乘以相应时间步的奖励。但在训练时,他将其作为修正。 我认为他应该将奖励乘以一个热向量。 https://github.com/keon/policy-gradient/blob/master/pg.py#L67
【问题讨论】:
标签: machine-learning neural-network reinforcement-learning q-learning