参考资料:https://spinningup.openai.com/en/latest/spinningup/rl_intro2.

强化学习算法的种类
强化学习的一些算法

Model-Free vs Model-Based RL

强化学习算法的一个重要分支是:智能体是否有能力从环境学习一个模型。

Model-Based

优点:希望智能体能够根据自己的思考做出计划,可以观测到可能的选择值,并在选择之间做出明确的决定。

  • 重要的实现例子:AlphaZero

缺点 : 关于环境的ground-truth model可能对于智能体是不适用的,如果智能体想要在这种情况下使用模型,必须纯粹的从经验学习模型,这是一个巨大的挑战。

  • 最大的挑战在于模型中的偏差可能被智能体利用,导致智能体在学习模型的时候可以表现很好,但是在实际环境中表现却不是很理想,而且模型的学习也是很难的,所以即使话费巨大的时间与计算资源,也可能无法的得到回报。

Model Free

  • Model Free可能放弃了某些潜在的增益,但是更家容易实现与调整

What to Learn

  • Policies, either stochastic or deterministic
  • Action-value functions(Q-functions)
  • Value functions
  • And/or environment models

Policy Optimization

  • 策略:πθ(as)\pi_{\theta}(a|s)
  • 目标函数:\(J(\pi_{\theta})\)
  • 优化方法:通过梯度上升直接优化参数\(\theta\),或者通过最大化\(J(\pi_{\theta})\)的局部近似
  • 一系列的优化方法:
    A2C / A3C : 梯度上升直接最大化performance
    PPO : 不直接最大化performance,而是代替的去优化一个目标函数,该目标函数对更新的结果进行保守估计\(J(\pi_{\theta})\) 的改变

Q-Learning

Q-Learning 是学习最优的action-value函数的一类逼近\(Q_{\theta}(s,a)\),经典的Q-Learning有使用基于Bellman equation的目标函数,这种优化策略总是performed off-policy,意味着每次更新都可以使用训练期间的任何时间点手机的数据,且不管智能体在获取数据的时候是如何explore the environment.
相关策略可以通过\(Q{*}\)和\(\pi{*}\)得到,通过Q-Learning的智能体做出的动作如下给出:
a(s)=argmaxaQθ(s,a)a(s)=arg \max_aQ_{\theta}(s,a)

Q-Learning的经典算法:

  • DQN和C51

Trade-offs Between Policy Optimization and Q-Learning

  • Policy Optimization的优点在于,可以直接优化所想要优化的内容,往往是比较稳定的,而且可以信赖的;
  • Q-Learning 不直接优化agent performance,而是通过训练\(Q_{\theta}\)来满足一个self-consistency的方程,有时候会出现不稳定的情况。但是在Q-Learning work的时候,可以更有效的采集样本,比policy optimization更有效的复用数据。

Interpolating Between Policy Optimization and Q-Learning

  • 两种算法并不是不兼容的,并且存在一系列存在于两个极端之间的算法,可以权衡两种算法的利弊。
    如DDPG,SAC

相关文章:

  • 2021-10-29
  • 2022-12-23
  • 2021-12-13
  • 2021-12-21
  • 2021-07-26
  • 2021-09-18
  • 2021-08-17
猜你喜欢
  • 2021-08-08
  • 2021-07-07
  • 2021-12-17
  • 2021-08-24
  • 2021-06-05
  • 2022-01-14
相关资源
相似解决方案