6. 强化学习之——策略优化进阶

课程大纲

Policy Gradient 算法的不同的变种

近五年的最新策略优化方法【6种方法，2条主线】

主线一：Policy Gradient ->Natural Policy Gradient -> TRPO -> ACKTR -> PPO

主线二：Q-Learning -> DDPG ->TD3 -> SAC

Policy Gradient 算法的不同形式

6. 强化学习之——策略优化进阶

总结一下：

Policy Gradient 有许多不同的形式是因为 reward function 的不同

（1）对于 REINFOECE，采用的是纯 MC 采样的方式获得 Gt

（2）对于 Q-Actor-Critic，采用 Q 函数作为 reward

（3）对于 Advantage-Actor-Critic，采用 Q 函数减去 baseline 的 V 函数获得 A

（4）对于 TD Actor-Critic，进一步简化，采用 TD Target

Critic 也有很多不同的策略估计 Policy Evaluation 的方法：例如 MC 或者 TD

策略优化方法前沿理论（SOTA state-of-the-art）

Policy Gradient 主线【基于策略】

Policy Gradient 存在的问题

（1）由于是 on-policy 的算法，它的 sample efficiency 很低

（2）训练过程不稳定，数据不是 IID 的，policy update 或者 step size 有问题的话就可能会崩溃

（3）问题实例：

6. 强化学习之——策略优化进阶

（4）如何解决上述问题

针对稳定性问题：可以引入 TRPO 中的 trust region ，设置安全更新范围；也可以用二阶的 natural policy gradient 的方法 [增加了费雪矩阵的逆矩阵] 取代此前用的一阶的 SGD，这样更准确稳定

针对on-policy样本效率低的问题：可以扩展成 off-policy，也就是 TRPO 中 importance sampling 的方法

Natural Policy Gradient

TRPO【2015年 ICML】Trust Region Policy Optimization

ACKTR【2017年 NIPS】Calculating Natural Gradient with K-FAC

核心是用 K-FAC 方法（Kornecker-Factored Approximate Curvature）去近似 Fisher Information Matrix

PPO【2017年】Proximal Policy Optimization，算是 TRPO 的一个简化版本

就是把 TRPO 中有约束形式转化为无约束的形式去做了，但是是按照一阶优化 SGD 去做的

一般的 PPO 形式：

6. 强化学习之——策略优化进阶

PPO 的 clipping 形式：

6. 强化学习之——策略优化进阶

Q-Learning 主线【基于值函数】

DDPG【2014年】Deep Deterministic Policy Gradient

这个名字虽然叫 Policy Gradient 但是其实是在对 DQN 进行一个扩展，之前的 DQN 是取了 argmax 获得的是离散的输出，DDPG就是为了使得 DQN 可以扩展到连续的动作空间，所以 DDPG 可以看做是 DQN 的连续空间的一个版本

6. 强化学习之——策略优化进阶

TD3【2018年，算是当前最好方法之一】Twin Delayed DDPG

DDPG 的问题就是有时候估计的 Q 函数会估计过大，然后导致策略的崩溃

所以 TD3 提出了三种改进 tricks：

（1）Clipped Double-Q Learning：两个网络

（2）"Delayed" Policy Updates：策略函数优化稍微慢于 Q 函数

（3）Target Policy Smoothing

各个 Trick 具体做法如下：

6. 强化学习之——策略优化进阶

SAC【2018年，算是当前最好方法之一】Soft Actor-Critic

SAC 的核心思想是利用 off-policy 的方法优化一个随机的策略，把 DDPG 的思想和随机策略优化思想整合在一起了，同时 SAC 把熵正则化 Entropy Regularzation 的思想结合了起来，下面式子的第二部分就是熵

6. 强化学习之——策略优化进阶

今日课程总结

（一）对于 Policy Gradient 主线【Policy Based】

（1）目的都是为了学习随机策略

（2）都是从单纯的 Policy Gradient 开始把 Importance Sampling 引入到 off-policy Learning 中

（二）对于 Q-Learning 主线【Value Based】

（1）由于是确定性的策略，所以直接输出确定性的动作空间

（2）直接从贝尔曼方程出发

（3）由于有了贝尔曼方程，所以对于 off-policy 算法很简单

6. 强化学习之——策略优化进阶

注：本文所有内容源自于B站周博磊老师更新完的强化学习纲要课程，听完之后获益很多，本文也是分享我的听课笔记。周老师Bilibili视频个人主页：https://space.bilibili.com/511221970?spm_id_from=333.788.b_765f7570696e666f.2

感谢周老师 :)