RL Policy Gradient：如何处理严格为正的奖励？答案

【问题标题】：RL Policy Gradient: How to deal with rewards that are strictly positive?RL Policy Gradient：如何处理严格为正的奖励？
【发布时间】：2018-09-24 02:50:14
【问题描述】：

简而言之：

在策略梯度方法中，如果奖励始终为正（从不为负），则策略梯度将始终为正，因此它将不断使我们的参数变大。这使得学习算法毫无意义。我们如何解决这个问题？

详细说明：

在“David Silver 的 RL 课程”第 7 讲（YouTube 上）中，他介绍了策略梯度的 REINFORCE 算法（这里只展示了 1 个步骤）：

实际的政策更新是：

注意这里的 v_t 代表我们得到的奖励。假设我们在玩一个奖励总是正的游戏（例如，累积分数），并且永远不会有任何负奖励，梯度总是正的，因此 theta 会不断增加！那么我们如何处理永不改变符号的奖励呢？

【问题讨论】：

标签： reinforcement-learning

【解决方案1】：

Theta 不是一个数字，而是一个参数化模型的数字向量。相对于您的参数的梯度可能是正的或负的。例如，考虑您的参数只是每个动作的概率。它们被限制添加到 1.0。增加一个动作的概率需要至少一个其他动作的概率降低。

【讨论】：