• 论文标题:Fast Reinforcement Learning Via Slow Reinforcement Learning

【5分钟Paper】Fast强化学习和Slow强化学习

所解决的问题

  让RL学地更快一点。

背景

  动物可以很快学习一些事情,而强化学习需要大量的试错实验。贝叶斯强化学习算法可以引入先验知识,但是在稍微复杂一点的情况下的更新是很困难的。

所采用的方法?

  将学习过程中的智能体作为一个优化目标,然后用一个标准的强化学习算法对其优化。就是用强化学习学一个强化学习算法。

  智能体与环境的交互如下图所示:

【5分钟Paper】Fast强化学习和Slow强化学习

  用n表示特殊的MDP中包含的epsiode数,上图中n=2n=2next state st+1s_{t+1}action ata_{t}rewardrtr_{t} 和终止信号dtd_{t}(episode 终止为1,非终止为0)组成策略的输入,在隐状态ht+1h_{t+1}的条件下,生成下一个隐状态ht+2h_{t+2}和动作at+1a_{t+1}。episode的隐状态可以用于下一个episode,但是不会用于不同的trail。

  智能体的目标是最大化累计折扣奖励(一个trial,而不是一个episode)。这种做法使得智能体是在考虑整体,而非局部。最后查ICLR2017的审稿意见,说最外层的智能体优化里层智能体RNN的参数,大概就是这么个思想吧。

取得的效果?

【5分钟Paper】Fast强化学习和Slow强化学习

【5分钟Paper】Fast强化学习和Slow强化学习

【5分钟Paper】Fast强化学习和Slow强化学习

所出版信息?作者信息?

  这篇文章并没有中,伯克利和OpenAI著作。

相关文章: