【5分钟Paper】Fast强化学习和Slow强化学习

文章目录

所解决的问题
背景
所采用的方法？
取得的效果？
所出版信息？作者信息？

论文标题：Fast Reinforcement Learning Via Slow Reinforcement Learning

【5分钟Paper】Fast强化学习和Slow强化学习

所解决的问题

让RL学地更快一点。

背景

动物可以很快学习一些事情，而强化学习需要大量的试错实验。贝叶斯强化学习算法可以引入先验知识，但是在稍微复杂一点的情况下的更新是很困难的。

所采用的方法？

将学习过程中的智能体作为一个优化目标，然后用一个标准的强化学习算法对其优化。就是用强化学习学一个强化学习算法。

智能体与环境的交互如下图所示：

【5分钟Paper】Fast强化学习和Slow强化学习

用n表示特殊的MDP中包含的epsiode数，上图中 $n=2$ 。next state $s_{t+1}$ ，action $a_{t}$ ，reward $r_{t}$ 和终止信号 $d_{t}$ (episode 终止为1，非终止为0)组成策略的输入，在隐状态 $h_{t+1}$ 的条件下，生成下一个隐状态 $h_{t+2}$ 和动作 $a_{t+1}$ 。episode的隐状态可以用于下一个episode，但是不会用于不同的trail。

智能体的目标是最大化累计折扣奖励(一个trial，而不是一个episode)。这种做法使得智能体是在考虑整体，而非局部。最后查ICLR2017的审稿意见，说最外层的智能体优化里层智能体RNN的参数，大概就是这么个思想吧。

取得的效果？

【5分钟Paper】Fast强化学习和Slow强化学习

所出版信息？作者信息？

这篇文章并没有中，伯克利和OpenAI著作。