【论文阅读】Discovering Reinforcement Learning Algorithms

【2020.7 arxiv】
Oh, Junhyuk, Matteo Hessel, Wojciech M. Czarnecki, Zhongwen Xu, Hado van Hasselt, Satinder Singh, and David Silver. “Discovering Reinforcement Learning Algorithms.” arXiv preprint arXiv:2007.08794 (2020).

任务：使用meta-learning方法学习通用的强化学习算法

解决自动去学习agent应该预测什么（价值函数）以及怎么使用预测结果来得到策略的问题，提出了Learned Policy Gradient（LPG）框架，不显式地约束agent预测输出的语义，而是使用meta-learner来决定应该预测什么

模型框架

【论文阅读】Discovering Reinforcement Learning Algorithms
目标：根据环境分布p(ε)和agent参数p(θ)，学习最优的更新策略η（meta-learner）

G为累积奖励

LPG框架

agent输出策略π和预测向量 $y\in[0,1]^m$
LPG为一个反向LSTM结果，输出如何更新策略 $\hat{\pi}$ 和预测向量 $\hat{y}$ ，输入为
【论文阅读】Discovering Reinforcement Learning Algorithms
其中 $r_t$ 为激励值， $d_t$ 表示当前步是否为episode的结束

Agent的更新 $\theta$

【论文阅读】Discovering Reinforcement Learning Algorithms
$\hat{\pi}$ 决定agent的动作概率应该如何调整， $\hat{y}$ 决定agent应该对给定状态预测的目标值

LPG的更新 $\eta$

【论文阅读】Discovering Reinforcement Learning Algorithms
增加一些正则项后变为

$H(y)$ 和 $H(π)$ 惩罚过于确定的预测和动作概率

平衡不同agent（不同游戏任务）中的超参 $\alpha$

使用 $p(\alpha|\epsilon)$ 进行超参采样，而不使用确定的超参
【论文阅读】Discovering Reinforcement Learning Algorithms
R为奖励，N为累积次数

meta-train

【论文阅读】Discovering Reinforcement Learning Algorithms

meta-test

选择在验证集（breakout和boxing游戏）中效果最好的更新策略η，在其他59款atari游戏进行测试
【论文阅读】Discovering Reinforcement Learning Algorithms
f为一个与动作无关的baseline函数

实验

使用3种toy游戏进行训练
Tabular grid world在网格中固定位置给定激励
Random grid world 每个episode在网格的随机位置给定激励
Delayed chain MDPs 根据第一个动作决定激励，但是会延时一段时候后给出

在atari游戏中进行meta test

【论文阅读】Discovering Reinforcement Learning Algorithms

与A2C相比，不同游戏各有千秋

与目前最好的方法进行比较

【论文阅读】Discovering Reinforcement Learning Algorithms

预测向量y预测了什么

【论文阅读】Discovering Reinforcement Learning Algorithms
可以看到y的内容与policy有关，说明确实学习到了有意义的语义

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode