强化学习的一些算法

参考资料：https://spinningup.openai.com/en/latest/spinningup/rl_intro2.

强化学习算法的种类
强化学习的一些算法

Model-Free vs Model-Based RL

强化学习算法的一个重要分支是：智能体是否有能力从环境学习一个模型。

Model-Based

优点：希望智能体能够根据自己的思考做出计划，可以观测到可能的选择值，并在选择之间做出明确的决定。

重要的实现例子：AlphaZero

缺点 : 关于环境的ground-truth model可能对于智能体是不适用的，如果智能体想要在这种情况下使用模型，必须纯粹的从经验学习模型，这是一个巨大的挑战。

最大的挑战在于模型中的偏差可能被智能体利用，导致智能体在学习模型的时候可以表现很好，但是在实际环境中表现却不是很理想，而且模型的学习也是很难的，所以即使话费巨大的时间与计算资源，也可能无法的得到回报。

Model Free

Model Free可能放弃了某些潜在的增益，但是更家容易实现与调整

What to Learn

Policies, either stochastic or deterministic
Action-value functions(Q-functions)
Value functions
And/or environment models

Policy Optimization

策略： $\pi_{\theta}(a|s)$
目标函数：$J(\pi_{\theta})$
优化方法：通过梯度上升直接优化参数$\theta$，或者通过最大化$J(\pi_{\theta})$的局部近似
一系列的优化方法：
A2C / A3C : 梯度上升直接最大化performance
PPO : 不直接最大化performance,而是代替的去优化一个目标函数，该目标函数对更新的结果进行保守估计$J(\pi_{\theta})$ 的改变

Q-Learning

Q-Learning 是学习最优的action-value函数的一类逼近$Q_{\theta}(s,a)$,经典的Q-Learning有使用基于Bellman equation的目标函数，这种优化策略总是performed off-policy，意味着每次更新都可以使用训练期间的任何时间点手机的数据，且不管智能体在获取数据的时候是如何explore the environment.
相关策略可以通过$Q^{{*}$和$\pi}{*}$得到，通过Q-Learning的智能体做出的动作如下给出：
$a(s)=arg \max_aQ_{\theta}(s,a)$

Q-Learning的经典算法：

DQN和C51

Trade-offs Between Policy Optimization and Q-Learning

Policy Optimization的优点在于，可以直接优化所想要优化的内容，往往是比较稳定的，而且可以信赖的；
Q-Learning 不直接优化agent performance,而是通过训练$Q_{\theta}$来满足一个self-consistency的方程，有时候会出现不稳定的情况。但是在Q-Learning work的时候，可以更有效的采集样本，比policy optimization更有效的复用数据。

Interpolating Between Policy Optimization and Q-Learning

两种算法并不是不兼容的，并且存在一系列存在于两个极端之间的算法，可以权衡两种算法的利弊。
如DDPG，SAC