【发布时间】:2018-09-24 02:50:14
【问题描述】:
简而言之:
在策略梯度方法中,如果奖励始终为正(从不为负),则策略梯度将始终为正,因此它将不断使我们的参数变大。这使得学习算法毫无意义。我们如何解决这个问题?
详细说明:
在“David Silver 的 RL 课程”第 7 讲(YouTube 上)中,他介绍了策略梯度的 REINFORCE 算法(这里只展示了 1 个步骤):
实际的政策更新是:
注意这里的 v_t 代表我们得到的奖励。假设我们在玩一个奖励总是正的游戏(例如,累积分数),并且永远不会有任何负奖励,梯度总是正的,因此 theta 会不断增加!那么我们如何处理永不改变符号的奖励呢?
【问题讨论】: