PPO，Proximal Policy Optimization Algorithms 论文阅读

TRPO的优化方式比较复杂，对于某些模型结构无法使用，例如模型使用了dropout或policy跟value function模型参数进行了共享。PPO算法基于TRPO的目标函数进行了简化，使用目标函数的一阶导数进行policy的更新，并且更新时可以进行多次迭代，重复使用现有的数据更新policy。

先看TRPO的目标函数（是surrogate的）

其复杂的优化方式主要来源于那个hard的KL散度约束，为了简化求解，可以将约束去掉，将KL作为惩罚项加到目标函数中，成为如下形式：

PPO，Proximal Policy Optimization Algorithms 论文阅读

优化这个公式就很简单了，可以使用梯度的方法去优化。这个目标函数存在的问题就是那个惩罚权重 PPO，Proximal Policy Optimization Algorithms 论文阅读不太好确定，这也是为什么TRPO没有采用这个目标函数的原因。作者给出了个动态调整的方法。先设定一个KL散度的目标值，通过比较当前KL散度值与的大小来动态调整，公式如下：

PPO，Proximal Policy Optimization Algorithms 论文阅读

还是很直接的， PPO，Proximal Policy Optimization Algorithms 论文阅读小了就减小KL的惩罚，大了就增大KL的惩罚。但这个不是本文提出的最好方法，作者发现比这个更好的方法是使用如下目标函数，对TRPO目标函数进行clip：

PPO，Proximal Policy Optimization Algorithms 论文阅读

其中 PPO，Proximal Policy Optimization Algorithms 论文阅读是重要性采样的比值，因此。上面公式将前的权重clip到，是设定的一个参数，论文用。当时，需要增加，因此，其上界为，如下图左边。当时，需要降低，因此，其下界为，如下图右边。下图红点为起始的 PPO，Proximal Policy Optimization Algorithms 论文阅读值，也就是，不会大于设定值。可以理解成超过阈值的那些数据就不会用到了，梯度会倾向于更新policy使得policy调整在阈值内的那些数据的结果。