文章目录
- 论文标题:Fast Reinforcement Learning Via Slow Reinforcement Learning
所解决的问题
让RL学地更快一点。
背景
动物可以很快学习一些事情,而强化学习需要大量的试错实验。贝叶斯强化学习算法可以引入先验知识,但是在稍微复杂一点的情况下的更新是很困难的。
所采用的方法?
将学习过程中的智能体作为一个优化目标,然后用一个标准的强化学习算法对其优化。就是用强化学习学一个强化学习算法。
智能体与环境的交互如下图所示:
用n表示特殊的MDP中包含的epsiode数,上图中。next state ,action ,reward 和终止信号(episode 终止为1,非终止为0)组成策略的输入,在隐状态的条件下,生成下一个隐状态和动作。episode的隐状态可以用于下一个episode,但是不会用于不同的trail。
智能体的目标是最大化累计折扣奖励(一个trial,而不是一个episode)。这种做法使得智能体是在考虑整体,而非局部。最后查ICLR2017的审稿意见,说最外层的智能体优化里层智能体RNN的参数,大概就是这么个思想吧。
取得的效果?
所出版信息?作者信息?
这篇文章并没有中,伯克利和OpenAI著作。