【2020.7 arxiv】
Oh, Junhyuk, Matteo Hessel, Wojciech M. Czarnecki, Zhongwen Xu, Hado van Hasselt, Satinder Singh, and David Silver. “Discovering Reinforcement Learning Algorithms.” arXiv preprint arXiv:2007.08794 (2020).
任务:使用meta-learning方法学习通用的强化学习算法
解决自动去学习agent应该预测什么(价值函数)以及怎么使用预测结果来得到策略的问题,提出了Learned Policy Gradient(LPG)框架,不显式地约束agent预测输出的语义,而是使用meta-learner来决定应该预测什么
模型框架
目标:根据环境分布p(ε)和agent参数p(θ),学习最优的更新策略η(meta-learner)
G为累积奖励
LPG框架
agent输出策略π和预测向量
LPG为一个反向LSTM结果,输出如何更新策略和预测向量,输入为
其中为激励值,表示当前步是否为episode的结束
Agent的更新
决定agent的动作概率应该如何调整,决定agent应该对给定状态预测的目标值
LPG的更新
增加一些正则项后变为
和惩罚过于确定的预测和动作概率
平衡不同agent(不同游戏任务)中的超参
使用进行超参采样,而不使用确定的超参
R为奖励,N为累积次数
meta-train
meta-test
选择在验证集(breakout和boxing游戏)中效果最好的更新策略η,在其他59款atari游戏进行测试
f为一个与动作无关的baseline函数
实验
使用3种toy游戏进行训练
Tabular grid world在网格中固定位置给定激励
Random grid world 每个episode在网格的随机位置给定激励
Delayed chain MDPs 根据第一个动作决定激励,但是会延时一段时候后给出
在atari游戏中进行meta test
与A2C相比,不同游戏各有千秋
与目前最好的方法进行比较
预测向量y预测了什么
可以看到y的内容与policy有关,说明确实学习到了有意义的语义