【2020.7 arxiv】
Oh, Junhyuk, Matteo Hessel, Wojciech M. Czarnecki, Zhongwen Xu, Hado van Hasselt, Satinder Singh, and David Silver. “Discovering Reinforcement Learning Algorithms.” arXiv preprint arXiv:2007.08794 (2020).

任务:使用meta-learning方法学习通用的强化学习算法

解决自动去学习agent应该预测什么(价值函数)以及怎么使用预测结果来得到策略的问题,提出了Learned Policy Gradient(LPG)框架,不显式地约束agent预测输出的语义,而是使用meta-learner来决定应该预测什么

模型框架

【论文阅读】Discovering Reinforcement Learning Algorithms
目标:根据环境分布p(ε)和agent参数p(θ),学习最优的更新策略η(meta-learner)
【论文阅读】Discovering Reinforcement Learning Algorithms
G为累积奖励
【论文阅读】Discovering Reinforcement Learning Algorithms

LPG框架

agent输出策略π和预测向量y[0,1]my\in[0,1]^m
LPG为一个反向LSTM结果,输出如何更新策略π^\hat{\pi}和预测向量y^\hat{y},输入为
【论文阅读】Discovering Reinforcement Learning Algorithms
其中rtr_t为激励值,dtd_t表示当前步是否为episode的结束

Agent的更新θ\theta

【论文阅读】Discovering Reinforcement Learning Algorithms
π^\hat{\pi}决定agent的动作概率应该如何调整,y^\hat{y}决定agent应该对给定状态预测的目标值

LPG的更新η\eta

【论文阅读】Discovering Reinforcement Learning Algorithms
增加一些正则项后变为
【论文阅读】Discovering Reinforcement Learning Algorithms
H(y)H(y)H(π)H(π)惩罚过于确定的预测和动作概率

平衡不同agent(不同游戏任务)中的超参α\alpha

使用p(αϵ)p(\alpha|\epsilon)进行超参采样,而不使用确定的超参
【论文阅读】Discovering Reinforcement Learning Algorithms
R为奖励,N为累积次数

meta-train

【论文阅读】Discovering Reinforcement Learning Algorithms

meta-test

选择在验证集(breakout和boxing游戏)中效果最好的更新策略η,在其他59款atari游戏进行测试
【论文阅读】Discovering Reinforcement Learning Algorithms
f为一个与动作无关的baseline函数

实验

使用3种toy游戏进行训练
Tabular grid world在网格中固定位置给定激励
Random grid world 每个episode在网格的随机位置给定激励
Delayed chain MDPs 根据第一个动作决定激励,但是会延时一段时候后给出

在atari游戏中进行meta test

【论文阅读】Discovering Reinforcement Learning Algorithms

与A2C相比,不同游戏各有千秋

与目前最好的方法进行比较

【论文阅读】Discovering Reinforcement Learning Algorithms

预测向量y预测了什么

【论文阅读】Discovering Reinforcement Learning Algorithms
可以看到y的内容与policy有关,说明确实学习到了有意义的语义

相关文章: