课程大纲

Policy Gradient 算法的不同的变种

近五年的最新策略优化方法【6种方法,2条主线】

主线一:Policy Gradient ->Natural Policy Gradient -> TRPO -> ACKTR -> PPO

主线二:Q-Learning -> DDPG ->TD3 -> SAC

Policy Gradient 算法的不同形式

6. 强化学习之——策略优化进阶

总结一下:

Policy Gradient 有许多不同的形式是因为 reward function 的不同

(1)对于 REINFOECE,采用的是纯 MC 采样的方式获得 Gt

(2)对于 Q-Actor-Critic,采用 Q 函数作为 reward

(3)对于 Advantage-Actor-Critic,采用 Q 函数减去 baseline 的 V 函数获得 A

(4)对于 TD Actor-Critic,进一步简化,采用 TD Target

Critic 也有很多不同的策略估计 Policy Evaluation 的方法:例如 MC 或者 TD

策略优化方法前沿理论(SOTA state-of-the-art)

Policy Gradient 主线【基于策略】

Policy Gradient 存在的问题

(1)由于是 on-policy 的算法,它的 sample efficiency 很低

(2)训练过程不稳定,数据不是 IID 的,policy update 或者 step size 有问题的话就可能会崩溃

(3)问题实例:

6. 强化学习之——策略优化进阶

(4)如何解决上述问题

针对稳定性问题:可以引入 TRPO 中的 trust region ,设置安全更新范围;也可以用二阶的 natural policy gradient 的方法 [增加了费雪矩阵的逆矩阵] 取代此前用的一阶的 SGD,这样更准确稳定

针对on-policy样本效率低的问题:可以扩展成 off-policy,也就是 TRPO 中 importance sampling 的方法

Natural Policy Gradient

 

TRPO【2015年 ICML】Trust Region Policy Optimization

 

ACKTR【2017年 NIPS】Calculating Natural Gradient with K-FAC

核心是用 K-FAC 方法(Kornecker-Factored Approximate Curvature)去近似 Fisher Information Matrix

PPO【2017年】Proximal Policy Optimization,算是 TRPO 的一个简化版本

就是把 TRPO 中有约束形式转化为无约束的形式去做了,但是是按照一阶优化 SGD 去做的

一般的 PPO 形式:

6. 强化学习之——策略优化进阶

 

 

 

PPO 的 clipping 形式:

6. 强化学习之——策略优化进阶

 

 

 

 

 

 

Q-Learning 主线【基于值函数】

DDPG【2014年】Deep Deterministic Policy Gradient

这个名字虽然叫 Policy Gradient 但是其实是在对 DQN 进行一个扩展,之前的 DQN 是取了 argmax 获得的是离散的输出,DDPG就是为了使得 DQN 可以扩展到连续的动作空间,所以 DDPG 可以看做是 DQN 的连续空间的一个版本

6. 强化学习之——策略优化进阶

TD3【2018年,算是当前最好方法之一】Twin Delayed DDPG

DDPG 的问题就是有时候估计的 Q 函数会估计过大,然后导致策略的崩溃

所以 TD3 提出了三种改进 tricks:

(1)Clipped Double-Q Learning:两个网络

(2)"Delayed" Policy Updates:策略函数优化稍微慢于 Q 函数

(3)Target Policy Smoothing

各个 Trick 具体做法如下:

6. 强化学习之——策略优化进阶

 

SAC【2018年,算是当前最好方法之一】Soft Actor-Critic

SAC 的核心思想是利用 off-policy 的方法优化一个随机的策略,把 DDPG 的思想和 随机策略优化思想整合在一起了,同时 SAC 把 熵正则化 Entropy Regularzation 的思想结合了起来,下面式子的第二部分就是熵

6. 强化学习之——策略优化进阶

6. 强化学习之——策略优化进阶

6. 强化学习之——策略优化进阶

6. 强化学习之——策略优化进阶

今日课程总结

(一)对于 Policy Gradient 主线【Policy Based】

(1)目的都是为了学习随机策略

(2)都是从单纯的 Policy Gradient 开始把 Importance Sampling 引入到 off-policy Learning 中

(二)对于 Q-Learning 主线【Value Based】

(1)由于是确定性的策略,所以直接输出确定性的动作空间

(2)直接从贝尔曼方程出发

(3)由于有了贝尔曼方程,所以对于 off-policy 算法很简单

6. 强化学习之——策略优化进阶

 

注:本文所有内容源自于B站周博磊老师更新完的强化学习纲要课程,听完之后获益很多,本文也是分享我的听课笔记。周老师Bilibili视频个人主页:https://space.bilibili.com/511221970?spm_id_from=333.788.b_765f7570696e666f.2

感谢周老师 :)

相关文章: