Model Based Reinforcement Learning for Atari

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

Blog：https://blog.csdn.net/weixin_39059031/article/details/105464005

Code: https://github.com/dhruvramani/model-based-atari (easy to learn), https://github.com/tensorflow/tensor2tensor/tree/master/tensor2tensor/rl (official)

ICLR 2020

ABSTRACT

　　无模型RL可以用于学习复杂任务(例如Atari游戏)的有效策略，甚至可以从图像观察中学习。但是，这通常需要非常大量的互动——实际上，与人类学习相同游戏所需的互动相比，实际上互动的数量要多得多。人们如何能如此迅速地学习？答案的部分原因可能是人们可以了解游戏的运作方式并预测哪些动作将导致理想的结果。在本文中，我们探索视频预测模型如何类似地使智能体能够以比无模型方法更少的交互来解决Atari游戏。我们描述了模拟策略学习(SimPLe)，这是一种完全基于模型的深度RL算法(基于视频预测模型)，并提供了几种模型结构的比较，其中包括一种在我们的环境中能产生最优结果的新颖结构。我们的实验在智能体与环境之间进行100k交互的低数据状态下的一系列Atari游戏中评估SimPLe，这相当于两个小时的实时播放。在大多数游戏中，SimPLe的性能优于最新的无模型算法，在某些游戏中，SimPLe的性能超过一个数量级。

Model Based Reinforcement Learning for Atari

1 INTRODUCTION

　　人类玩家可以在几分钟内学会玩Atari游戏(Tsividis et al., 2017)。但是，一些最优的无模型RL算法需要数以千万计的时间步骤——相当于数周的实时训练。人们如何才能更快地学习这些游戏？困惑的部分原因可能是人类对游戏中所代表的物理过程有直观的了解：我们知道飞机可以飞行，球可以滚动，子弹可以摧毁外星人。因此，我们可以预测我们动作的结果。在本文中，我们探讨了学到的视频模型如何能够在Atari学习环境(ALE)基准(Bellemare et al., 2013; Machado et al., 2018)中进行学习，其中预算限制为100K个时间步骤——大约需要两个小时的游戏时间。

　　尽管先前的工作提出了针对Atari游戏中下一帧，未来帧以及未来帧和奖励组合预测的训练预测模型(Oh et al. (2015); Chiappa et al. (2017); Leibfried et al. (2016)，没有任何先前的工作能够通过预测模型成功地展示出基于模型的控制，并达到与无模型RL的情况下相当的结果。的确，在最近的一项调查中(Machado et al. (2018)的第7.2节)这被表述为以下挑战："到目前为止，在ALE中，尚无清晰的论证以学到的模型成功进行规划''。

　　使用环境模型或非正式地赋予智能体预测其未来的能力，对于RL具有根本的吸引力。可能的应用范围非常广泛，包括从模型中学习策略(Watter et al., 2015; Finn et al., 2016; Finn＆Levine, 2017; Ebert et al., 2017; Hafner et al., 2019; Piergiovanni et al., 2018; Rybkin et al., 2018; Sutton＆Barto, 2017, Chapter 8)，捕捉场景的重要细节(Ha＆Schmidhuber, 2018)，鼓励探索(Oh et al., 2015)，创造内在动机(Schmidhuber, 2010)或反事实推理(Buesing et al., 2019)。基于模型的学习令人兴奋的好处之一是可以大大提高深度RL的样本效率(参见Sutton＆Barto (2017)的第8章)。

　　我们的工作是通过引入一种系统来推进基于模型的RL的最新技术，据我们所知，该系统是第一个成功处理ALE基准测试中各种挑战性游戏的系统。为此，我们尝试了几种随机视频预测技术，包括基于离散隐变量的新型模型。我们提出一种称为模拟策略学习(SimPLe)的方法，该方法利用这些视频预测技术并训练策略以在学到的模型内玩游戏。通过数据集聚合的多次迭代(其中部署了该策略以收集原始游戏中的更多数据)，我们学到了一种策略，对于许多游戏，该策略可以在真实环境中成功玩游戏(请参阅项目网页上的视频https://goo.gl/itykP8)。

　　在我们的经验评估中，我们发现在几乎所有游戏上，SimPLe都比最先进的Rainbow算法(Hessel et al., 2018)的高度可调版本显著提高了采样效率。特别是在10万个样本的低数据状态下，在一半以上的游戏中，达到我们的方法所获得的得分，Rainbow至少需要两倍的样本量。在Freeway的最佳情况下，我们的方法的采样效率提高了10倍以上，请参见图3。自该工作的第一本预印本出版以来，van Hasselt et al. (2019); Kielak (2020)展示了Rainbow可以在低数据状态下进行调整以获得更好的结果。结果与SimPLe相当——在测试的26款游戏中，两种无模型方法均在13款游戏中性能更好，而SimPLe在其他13款中性能更好(请注意，在4.2节中显示的是van Hasselt et al. (2019)与我们的第一个预印本的结果进行比较，随后进行了改进)。

2 RELATED WORK

　　随着Arcade学习环境(ALE) (Bellemare et al., 2015)的引入，Atari游戏作为RL基准日益受到关注。然后，RL与深度模型的结合使RL算法能够使用DQN算法的变体直接从游戏屏幕图像中学习玩Atari游戏(Mnih et al., 2013; 2015; Hessel et al., 2018)和actor-critic算法(Mnih et al., 2016; Schulman et al., 2017; Babaeizadeh et al., 2017b; Wu et al., 2017; Espeholt et al., 2018)。该领域最成功的方法仍然是无模型算法(Hessel et al., 2018; Espeholt et al., 2018)。尽管这些方法的样本复杂度最近已得到显著改善，但仍远高于人类玩家学习每种游戏所需的经验量(Tsividis et al., 2017)。在这项工作中，我们的目标是学习Atari游戏，预算仅为10万个智能体步骤(400K帧)，相当于大约两个小时的游戏时间。在这种情况下通常不会评估现有方法，因此我们优化了Rainbow (Hessel et al., 2018)以实现1M步骤的最优性能，有关详细信息，请参见附录E。

　　Oh et al. (2015)和Chiappa et al. (2017)显示，学习Atari 2600环境的预测模型中可能使用适当选择的深度学习架构。令人印象深刻的是，在某些情况下，预测在数百步的时间跨度内保持较低的L2误差。由于学到的Atari环境仿真器是我们方法的核心要素，因此在许多方面，我们的工作是由Oh et al. (2015)和Chiappa et al. (2017)启发的，但是我们专注于在学习如何玩好游戏的背景下使用视频预测，并积极验证所学习的仿真器可用于训练在原始环境中有用的策略。Leibfried et al. (2016)在这个方向上迈出了重要的一步(扩展了Oh et al. (2015)的工作)，通过包含奖励预测(但未使用该模型)来学习玩游戏的策略。包括我们在内的大多数方法都以隐式方式对游戏的知识进行编码。与此不同的是，有些工作中的建模更为明确，例如，Ersen＆Sariel (2014)使用Incredible Machines测试平台来学习目标的行为及其交互。类似地，Guzdial et al. (2017)学习了一种引擎，可以预测超级马里奥兄弟(Super Mario Bros)域中预定义的sprites集合之间的交互。

　　也许令人惊讶的是，在图像游戏中几乎没有关于基于模型的RL的工作。值得注意的例外是Oh et al. (2017)，Sodhani et al. (2019)，Ha＆Schmidhuber (2018)，Holland et al. (2018)，Leibfried et al. (2018)和Azizzadenesheli et al. (2018)的工作。Oh et al. (2017)使用奖励模型，在许多Atari游戏上都取得了不错的成绩，从而增强了无模型学习的能力。但是，此方法实际上并非旨在建模或预测未来帧，而是获得了明显但相对适度的效率提升。Sodhani et al. (2019)提出学习与RNN策略一致的模型，这有助于训练比其无模型基准更强大的策略。Ha＆Schmidhuber (2018)提出了一种将带有循环神经网络的变分自编码器组合到架构中的方法，该架构在VizDoom环境和2D赛车游戏中得到了成功评估。训练过程类似于算法1，但是仅需要循环的一次迭代，因为环境足够简单，可以通过随机探索进行充分探索。同样，Alaniz (2018)利用转换模型和Monte Carlo树搜索来解决Minecraft中的块放置任务。Holland et al. (2018)使用Dyna (Sutton, 1991)的变体来学习环境模型，并在Atari游戏的背景下为策略训练提供经验。使用6个Atari游戏作为基准Holland et al. (2018)测量了规划形状对Dyna-DQN算法性能的影响，并包括消融比较了使用完美模型和不完美模型获得的分数。我们的方法在Asterix上达到了Dyna-DQN得分的330％，在Q-Bert上达到120％，在Seaquest上达到150％，在Ms. Pac-Man上达到80％。Azizzadenesheli et al. (2018)提出了一种称为生成对抗树搜索(GATS)的算法，并针对五款Atari游戏训练了基于GAN的世界模型以及Q函数。Azizzadenesheli et al. (2018)主要讨论了GATS算法的各种失败模式。我们的方法在Pong上的得分达到GATS的约64倍，在Breakout上为10倍。¹

　　在游戏之外，针对诸如机器人技术之类的应用，对基于模型的RL进行了详尽的研究(Deisenroth et al., 2013)。尽管大多数此类工作没有使用图像观测，但最近的一些工作已将图像整合到现实世界中(Finn et al., 2016; Finn＆Levine, 2017; Babaeizadeh et al., 2017a; Ebert et al., 2017; Piergiovanni et al., 2018; Paxton et al., 2019; Rybkin et al., 2018; Ebert et al., 2018)并进行了仿真(Watter et al., 2015; Hafner et al., 2019)。我们在第4节中描述的Atari环境的视频模型是由在机器人技术环境下开发的模型所激发的。灵感的另一个来源是van den Oord et al. (2017)和Kaiser＆Bengio (2018)提出的离散自编码器。

　　我们采用的基于模型的RL算法的结构包括在学习模型之间进行交替，然后使用该模型通过无模型的RL来优化策略。从Dyna Q (Sutton, 1991)到结合深度网络的现有方法(Heess et al., 2015; Feinberg et al., 2018; Kalweit＆Boedecker, 2017; Kurutach et al., 2018)，已经在许多先前的工作中提出了这种基本算法的变体。

¹ 与Dyna-DQN和GATS的比较基于在100K交互时获得的随机归一化分数。这些是近似的，因为Dyna-DQN和GATS的作者未提供表格式结果。Dyna-DQN的作者还报告了我们不考虑的两款游戏的得分：Beam Rider和Space Invaders。对于这两个游戏，报告的分数都接近随机分数，Asterix上的GATS分数也是如此。

3 SIMULATED POLICY LEARNING (SIMPLE)

　　RL被形式化为马尔可夫决策过程(MDP)。MDP定义为元组(S, A, P, r, γ)，其中S是状态空间，A是可用于智能体的一组动作，P是未知转换核，r是奖励函数，γ ∈ (0, 1)是折扣因子。在这项工作中，我们将MDP称为环境，并假设环境不提供对状态的直接访问(即Atari 2600仿真器的RAM)。相反，我们使用视觉观察，通常是210x160 RGB图像。单个图像不能确定状态。为了减少环境的局部可观察性，我们堆叠了四个连续帧并将其用作观察值。RL智能体通过根据策略发出动作来与MDP交互。形式上，策略π是状态到A上概率分布的映射。策略的质量由价值函数 Model Based Reinforcement Learning for Atari 度量，对于初始状态s估计智能体收集的总折扣奖励。

　　在Atari 2600游戏中，我们的目标是找到一种策略，从游戏开始就最大化价值函数。至关重要的是，除了Atari 2600仿真器环境env外，我们还将使用神经网络仿真环境env'，我们将其称为世界模型并在第4部分中进行详细描述。环境env'与env共享动作空间和奖励空间，并以相同的格式产生视觉观察结果，因为它将被训练为模仿env。我们的主要目标是使用仿真环境env'来训练策略π，以便在原始环境env中π获得良好的性能。在此训练过程中，我们旨在尽可能少地与env进行交互。训练env'的初始数据来自env的随机rollout。由于这不可能涵盖env的所有方面，因此我们使用算法1中介绍的迭代方法。

Model Based Reinforcement Learning for Atari

图2：所提出的具有离散潜在性的随机模型结构。模型的输入是四个堆叠帧(以及智能体选择的动作)，而输出是下一个预测帧和期望奖励。输入像素和动作是使用全连接层嵌入的，并且输出中有每个像素的softmax (256色)。该模型有两个主要组成部分。首先，网络的底部由跳过连接的卷积编码器和解码器组成。为了根据智能体的动作来调节输出，将解码器中每一层的输出与(学到的)嵌入动作相乘。该模型的第二部分是一个卷积推断网络，它与给定下一帧的后验近似，类似于Babaeizadeh et al. (2017a)。在训练时，来自近似后验的采样隐变量将离散化为比特。为了保持模型可微，反向传播遵循了Kaiser and Bengio (2018)的离散化方法。对第三个基于LSTM的网络进行训练，以在给定先前比特的情况下近似每个比特。在推断时，使用此网络对隐比特进行自动回归预测。确定性模型与该图具有相同的架构，但没有推断网络。

4 WORLD MODELS

　　为了寻找有效的世界模型，我们尝试了各种架构，包括现有架构的新版本和修改版本。该搜索产生了一种新颖的随机视频预测模型(如图2所示)，与之前提出的其他模型相比，该模型具有更好的结果。在本节中，我们将描述此结构的详细信息以及我们设计决策的依据。在第6节中，我们比较了这些模型的性能。

Deterministic Model. 作为图2的一部分，我们的基本结构类似于Oh et al. (2015)的卷积前馈网络。输入X由四个连续的游戏帧和一个动作a组成。堆叠的卷积层处理视觉输入。这些动作是one-hot编码的，并嵌入到一个向量中，该向量在通道上与卷积层的输出相乘。网络输出游戏的下一帧和奖励值。

　　在我们的实验中，我们改变了上面架构的细节。在大多数情况下，我们使用具有64个滤波器的四个卷积层的堆叠，然后是三个密集层(前两个具有1024个神经元)。密集层通过可学习的动作嵌入与64维向量连接。接下来，三个反卷积层由64个滤波器组成。额外的反卷积层输出原始105x80尺寸的图像。滤波器的数量是3或3x256。在第一种情况下，输出是像素RGB值的实值近似。在第二种情况下，滤波器后跟softmax，从而在色彩空间上产生概率分布。奖励由附加到最后一个全连接层的softmax预测。我们使用等于0.2的dropout和层归一化。

Loss functions. 我们网络的视觉输出是每个像素/通道一个浮点数，或者是分类的256维softmax。在这两种情况下，我们都将裁剪损失max(Loss, C)(其中C为常数)。我们发现裁剪对于改进模型至关重要(使用每个序列度量的正确奖励预测以及使用算法1成功训练进行衡量)。我们推测裁剪会大大降低由于对大背景区域进行微调而产生的梯度幅度，从而使优化过程专注于较小但重要的区域(例如Pong中的球)。在我们的实验中，对于像素值的L2损失，我们将C = 10；对于softmax损失，我们将C = 0.03。请注意，这意味着当有关正确像素值的置信度超过97％(如-ln(0.97) ≈ 0.03)时，我们不再从该像素获得梯度。

Scheduled sampling. env'模型使用了先前步骤的预测，由于复合误差，该模型可能会偏离其适用范围。继Bengio et al. (2015); Venkatraman et al. (2016)，我们通过用上一步的预测随机替换输入X的某些帧来训练以缓解此问题，同时在训练循环的第一次迭代的中间将混合概率线性增加到100％。

Stochastic Models. 可以使用随机模型来处理过去观察到的帧的有限视野，以及sprites的遮挡和闪烁，从而获得更高质量的预测。受Babaeizadeh et al. (2017a)的启发，我们尝试了变分自编码器(Kingma ＆ Welling, 2014)来建模环境的随机性。在此模型中，额外网络接收输入帧以及将来的目标帧作为输入，并近似计算后验的分布。在每个时间步骤上，从此分布中采样一个隐变量z_t，并将其作为输入传递给原始预测模型。在测试时，从假定的先前N(0, I)中采样隐变量。为了匹配假设的先验和近似，我们使用Kullback-Leibler散度项作为额外损失项(Babaeizadeh et al., 2017a)。

　　我们注意到上述模型存在两个主要问题。首先，KL散度损失项的权重取决于游戏，如果要处理大量Atari游戏，这是不切实际的。其次，该权重通常在[10^-3, 10^-5]范围内是一个很小的值，这意味着近似的后验可以与假定的先验有显著差异。这可能导致推断时以前看不见的隐变量，从而导致不良的预测。我们通过利用类似于Kaiser＆Bengio (2018)的离散隐变量解决这些问题。

　　如图2所示，所提出的具有离散隐变量的随机模型将隐变量离散化为比特(0和1)，同时训练基于LSTM的辅助Hochreiter＆Schmidhuber (1997)循环网络来自动回归预测这些比特。在推断时，与从先前的采样相比，该辅助网络将生成隐比特。为了使预测模型对看不见的隐比特更加鲁棒，我们在离散化之前将均匀噪声添加到近似的隐变量，并对离散化后的比特应用dropout (Srivastava et al., 2014)。有关结构的更多详细信息，请参见附录C。

5 POLICY TRAINING

　　现在我们将描述算法1中概述的SimPLe的详细信息。在第6步中，我们使用近端策略优化(PPO)算法(Schulman et al., 2017)(其中γ = 0.95)。该算法在仿真环境env'中生成rollout，并使用它们来改进策略。基本的困难在于模型随着时间推移而变得不完善。为了缓解此问题，我们使用了短rollout的env'。通常，每N = 50步，我们从真实缓存区D中均匀采样初始状态，然后重新启动env'(有关使用γ和N值的实验，请参见第6.4节)。由于PPO算法没有办法推断出比rollout长度长的效果，因此使用短rollout可能会降低性能。为了缓解这个问题，在rollout的最后一步，我们将价值函数的评估添加到奖励中。从实际环境中收集的轨迹重新开始的多次迭代训练对我们而言是新知识。它的灵感来自经典的Dyna-Q算法，尤其是在Atari域中，没有相当的结果。
　　算法1中的主循环重复15次(请参见第6.4节)。在第一次迭代中，训练世界模型的步数为45K，在随后的迭代中为15K。在以后的迭代中进行较短的训练不会降低性能，因为第一次迭代后的世界模型已经捕获了游戏动态的一部分，只需要扩展到新颖的情况即可。
　　在每次迭代中，都使用PPO在最新的世界模型中训练智能体。在每个PPO中，我们使用16个并行智能体从仿真环境env'收集25, 50或100个步骤(请参见第6.4节以了解消融实验)。PPO epoch的数量为z · 1000，其中除最后一个(其中z = 3)和两次pass数量8和12(其中z = 2)外的所有pass中z均等于1。这在每个循环pass中都提供了800K · z与仿真环境的交互。在训练过程中，智能体与仿真环境env'进行15.2M的交互。

Model Based Reinforcement Learning for Atari

6 EXPERIMENTS

　　我们使用Atari学习环境(ALE)基准的一套Atari游戏评估SimPLe。在我们的实验中，训练循环重复进行15次迭代，并与每次迭代中收集的环境进行6400次交互。我们对Atari游戏应用了标准的预处理：跳帧等于4，即每个动作重复4次。帧按比例缩小2倍。

　　因为在循环的第一次迭代之前收集了一些数据，所以训练期间与Atari环境进行总共6400 · 16 = 102400次交互。这相当于从Atari游戏中获得409600帧(60 FPS时为114分钟)。在每次迭代中，在学到的模型下训练的最新策略都用于在实际环境env中收集数据。数据也直接用于通过PPO训练策略。由于来自仿真环境和真实环境的训练数据数量之间存在巨大差异(15M vs 100K)，后者对策略的影响可以忽略不计。

　　我们在选择了26种游戏的基础上评估了我们的方法，这些游戏是基于现有的无模型深度RL算法²可以解决的，在我们的比较中是Rainbow (Hessel et al., 2018)和PPO (Schulman et al., 2017)。对于Rainbow，我们使用了Dopamine软件包中的实现，并花费了大量时间对其进行调整以提高采样效率(请参见附录E)。

　　有关所有实验的可视化，请参见https://goo.gl/itykP8；有关摘要，请参见图3。可以看出，在几乎所有游戏中，我们的方法都比高度调整的Rainbow基准更具采样效率，在一半以上的游戏中需要的样本数量不到一半，而在Freeway上，样本效率提高了10倍以上。我们的方法比PPO的优势更大。我们还将我们的方法与固定分数基准(针对不同基准)进行比较，而不是计算匹配分数所需的步骤，结果见图4。有关在不同游戏上的性能的定性分析，请参阅附录B。源代码可作为Tensor2Tensor库的一部分获得，其中包括有关如何运行实验的说明³。

Model Based Reinforcement Learning for Atari

² 具体来说，对于最终评估，我们选择了使用我们的方法或使用100K交互的Rainbow算法获得非随机结果的游戏。

³https://github.com/tensorflow/tensor2tensor/tree/master/tensor2tensor/rl

6.1 SAMPLE EFFICIENCY

　　与文献中最新的无模型深度RL方法相比，我们实验中的主要评估研究了SimPLe的样本效率。为此，我们将之与Rainbow (Hessel et al., 2018; Castro et al., 2018)进行比较，后者代表了Atari游戏的最新Q学习方法，以及PPO (Schulman et al., 2017)，这是一种无模型的策略梯度算法(有关Rainbow和PPO调整的详细信息，请参见附录E)。比较的结果如图3所示。对于每个游戏，我们绘制了Rainbow或PPO达到与我们的方法进行100K交互步骤后的相同评分所需的时间步数。红线表示100K步数：任何大于此值的横条表示游戏中的无模型方法需要更多步数。SimPLe在几乎所有游戏上的学习速度方面均优于无模型算法，在少数游戏中，SimPLe的性能提高了一个数量级。对于某些游戏，其性能达到了我们PPO实现达到10M步的性能。这表明基于模型的RL提供了一种有效的方法来学习Atari游戏，而样本复杂性只是其中的一小部分。

　　这些图中的结果是通过平均每个游戏5次运行得出的。对于除Bank Heist以外的所有游戏，基于模型的智能体优于随机策略。有趣的是，我们观察到5次运行中最好的一次通常明显更好。对于其中的6场比赛，它超过了人类的平均得分(如Pohlen et al. (2018)的表3所示)。这表明进一步稳定SimPLe应该可以改进其性能，为将来的工作指明了重要的方向。在训练中的某些情况下，我们在循环的每个步骤中观察到结果差异很大。存在许多可能的原因，例如策略训练与监督训练之间的相互影响或模型与实际环境之间的域不匹配。我们在附录D中提供了详细的数值结果，包括最优分数和标准差。

Model Based Reinforcement Learning for Atari

6.2 NUMBER OF FRAMES

　　我们的工作重点是学习与环境互动100K步的游戏。在本节中，我们介绍了具有20K, 50K, 200K, 500K和1M交互的设置的额外结果。参见图5(a)。在20K互动下，我们的结果很差。对于50K，它们已经几乎与100K交互一样好。从那里开始，结果得到改善，直到有500K个样本——这也是它们与无模型PPO相当的一点。每个游戏的详细结果可在附录F中找到。

　　这表明SimPLe在低数据量方面表现出色，但随着数据量的增加其优势消失。这种行为在训练开始时快速增长，但在比较基于模型的方法和无模型的方法时通常会观察到较低的渐近性能(Wang et al., 2019)。如第6.4节所述，分配较大的计算预算有助于100K设置。我们怀疑对于更多样本的设置，收益会更大。

　　最后，我们验证了使用100K SimPLe获得的模型是否对无模型PPO训练有用。根据图5(b)所示的结果，我们可以肯定地回答这个猜想。渐近性能较低可能是由于探索不佳所致。使用SimPLe进行预训练的策略旨在在100K上获得最优性能，这时其熵非常低，因此阻碍了进一步的PPO训练。

Model Based Reinforcement Learning for Atari

6.3 ENVIRONMENT STOCHASTICITY

　　世界模型设计中的一个关键决定是随机性的纳入。尽管Atari被认为是确定性环境，但鉴于过去观察到的帧(在我们的情况下为4帧)的视野有限，因此它是随机的。随机性的水平取决于游戏。但是，可以在许多Atari游戏中观察到它。在Kung Fu Master游戏中可以观察到这种行为的一个例子——消除了当前的对手之后，游戏画面始终看起来相同(它只包含玩家的角色和背景)。游戏会派遣各种新对手，这不能仅通过视觉观察来推断(无法访问游戏的内部状态)，因此无法通过确定性模型进行预测。Babaeizadeh et al. (2017a)也曾报道过类似的问题，他们的基准确定性模型的输出是可能随机目标运动的模糊叠加。从附录的图11可以看出，随机模型学习了合理的行为——对潜在的对手进行采样并使其清晰地呈现出来。

　　鉴于所提出模型的随机性，SimPLe可以用于真正的随机环境。为了证明这一点，我们进行了一项实验，按照(Machado et al., 2018, 第5节)中的建议，在存在粘性动作的情况下对整个流水线(世界模型和策略)进行训练。我们的世界模型学会了考虑动作的粘性，并且在大多数情况下，即使没有任何调整，最终结果也与确定性情况非常相似，请参见图6。

6.4 ABLATIONS

　　为了评估我们方法的设计，我们独立地更改了许多设计决策。这里我们给出一个概述；有关详细结果，请参见附录A。

Model architecture and hyperparameters. 我们评估了世界模型的几种选择，并且我们提出的随机离散模型的表现最佳。第二个最重要的参数是世界模型的训练时间。我们验证了更长的训练将是有益的，但是由于所有游戏的训练成本都很高，因此我们不得不在其他所有消融研究中加以限制。至于从仿真env' rollout的长度，默认情况下我们使用N = 50。我们通过实验表明，N = 25的表现大致相同，而N = 100则稍差一些，这可能是由于复合模型误差所致。除非另有说明，否则折扣因子设置为γ = 0.99。我们看到γ = 0.95略胜于其他值，并且我们假设这是由于对模型缺陷的耐受性更好。但总体而言，这三个值的表现相当。

Model-based iterations. 训练模型，训练策略和收集数据的迭代过程对于随机数据收集不足的非平凡任务至关重要。在逐个游戏的分析中，我们量化了在以后的训练迭代中获得最优结果的游戏数量。在某些游戏中，可以很早地学会好的策略。尽管这可能是由于训练的高度可变性所致，但它的确暗示了采用更具针对性的探索策略可以进行更快得多的训练(即步数少于10万)的可能性。在附录的图9中，我们展示了在算法1的主训练循环中达到运行的最大分数时，学习过程中(第一个)点的累积分布图。

Random starts. 使用短rollout对于减轻模型中的复合错误至关重要。为了确保探索，SimPLe从实际数据缓存区D中随机选择的状态开始rollout。图9将基准与没有随机开始的实验进行了比较，在Seaquest上rollout长度为1000的实验表明在没有随机开始的情况下结果要差得多。

7 CONCLUSIONS AND FUTURE WORK

　　我们介绍了SimPLe，这是一种基于模型的RL方法，可直接对原始像素观察进行操作，并学习在Atari学习环境中玩游戏的有效策略。我们的实验表明，SimPLe通过与环境的100K交互学习了很多游戏，相当于2个小时的游戏时间。在许多情况下，现有方法学习达到相同奖励值所需的样本数量要大几倍。

　　我们的预测模型具有随机隐变量，因此可以在高度随机环境中应用。研究这种环境是未来工作的一个令人振奋的方向，研究可使用预测神经网络模型的其他方式也是如此。我们的方法将模型用作学习的仿真器，并直接应用无模型的策略学习来获取策略。但是，我们可以将模型用于规划。同样，由于我们的模型是可微的，因此可以将其梯度中包含的其他信息合并到RL过程中。最后，通过预测模型学习的表征本身可能比从环境中观察到的原始像素更有意义。将这种表征纳入策略可以进一步加速和改善RL过程。

　　尽管SimPLe比无模型方法能更快地学习，但它确实有局限性。首先，最终分数总体上低于最优的最新无模型方法。可以使用更好的动态模型来改善这一点，并且尽管通常在基于模型的RL算法中很常见，但这为将来的工作提出了重要的方向。另一个不太明显的局限性是，我们的方法的性能通常在同一游戏的不同运行之间有很大差异。模型，策略和数据收集之间的复杂交互可能是造成这种情况的原因。在未来的工作中，通过贝叶斯参数后验或集成(Kurutach et al., 2018; Chua et al., 2018)捕获不确定性的模型可能会提高鲁棒性。最后，训练内部模型的计算量和时间要求很高(请参阅附录C)，这使得开发更轻量级的模型成为重要的研究方向。

　　在本文中，我们的重点是仅在Atari游戏套件上演示SimPLe的功能和通用性，但是，我们认为类似的方法可以应用于其他环境和任务，这是我们未来工作的主要方向之一。作为一项长期挑战，我们认为，基于随机预测模型的基于模型的RL是无模型RL的有前途且高效的替代方案。此类方法在高保真仿真环境和现实世界数据中的应用代表了未来工作的一个令人振奋的方向，该未来工作可以从机器人和自动驾驶等领域的原始感官输入中高效学习行为。

Model Based Reinforcement Learning for Atari

A ABLATIONS

　　为了评估我们方法的设计，我们独立地更改了许多设计决策：模型的选择，γ参数和PPO rollout的长度。表1总结了7种实验配置的结果。

Models. 为了评估模型选择，我们评估了以下模型：确定性模型，确定性循环模型和随机离散模型(请参见第4节)。从表1可以看出，我们提出的随机离散模型性能最佳。图7a和7b显示了随机性和复发的作用。

Steps. 参见图7d。如第5节所述，每隔N个步骤，我们将使用真实数据重新初始化仿真环境。默认情况下，我们使用N = 50，在某些实验中，我们将N = 25或N =100。从上表和图7d可以明显看出，100比25或50差一点，这可能是由于模型误差复合所致，但是这种影响远小于模型架构的影响。

Gamma. 参见图8b。除非另有说明，否则我们使用折扣因子γ = 0.99。我们看到γ = 0.95略胜于其他值，并且我们假设这是由于对模型缺陷的耐受性更好。但是总的来说，这三个值似乎在相同的步骤数下相当。

Model-based iterations. 训练模型，训练策略和收集数据的迭代过程对于简单的随机数据收集不足的非平凡任务至关重要。在逐个游戏的分析中，我们量化了在以后的训练迭代中获得最优结果的游戏数量。在某些游戏中，可以很早地学会好的策略。尽管这可能仅仅是由于训练的高度可变性造成的，但它的确暗示了在未来的工作中，如果采用更具针对性的探索策略，可以获得更快的训练(分步少于10万步)。我们把这个问题留给以后的工作。

　　在图9中，当算法1的主训练循环中达到运行的最大分数时，我们展示了学习期间(第一)点的累积分布图。
　　在图7c中，我们显示了实验结果，其中样本数固定为100K，但训练循环数却有所变化。我们得出结论，15对训练有益。

Long model training. 我们对世界模型的训练时间要长5倍，才能获得最好的结果，请参见图8a与较短训练的比较。由于我们的资源拮据，我们在短模型训练设置中进行了其他消融实验。

Random starts. 使用短rollout对于减轻模型下的复合误差至关重要。为确保探索，SimPLe从实际数据缓存区D中随机选择的状态开始rollout。在图9中，我们与没有随机开始且在Seaquest上rollout长度为1000的实验进行比较。这些数据有力地表明，消融随机开始会严重恶化结果。

Model Based Reinforcement Learning for Atari

B QUALITATIVE ANALYSIS

　　本节对单个游戏进行定性分析和案例研究。我们强调，我们没有为每个游戏单独调整方法或超参数，但我们提供了特定的定性分析，以更好地理解模型的预测结果。⁴

Solved games. 本文的主要目标是使用基于模型的方法，以在不超过10万次交互的预算内实现良好的性能。对于Pong和Freeway这两个游戏，我们的方法SimPLe能够达到最高分。

Exploration. Freeway是一个特别有趣的游戏。尽管很简单，但它提出了巨大的探索挑战。由智能体控制的这只鸡，在随机探索时，上升速度很慢，因为它不断被汽车撞倒(请参见左侧视频https://goo.gl/YHbKZ6)。这使得完全不可能过马路并获得非零回报。尽管如此，SimPLe能够捕获此类罕见事件，将其内部化为预测模型，然后成功学习成功的策略。

　　但是，并非每次运行都具有这种良好的性能。我们推测失败情况下的以下情况。如果策略的熵在早期阶段衰减太快，则所收集的经验将保持有限，从而导致世界模型不佳，而世界模型的函数不足以支持探索(例如，鸡在升至高点时就会消失)。在我们的一项实验中，我们观察到最终的策略是鸡只向上移动到第二条车道，并一直等着被汽车撞到，依此类推。

Pixel-perfect games. 在某些情况下(对于Pong，Freeway和Breakout)，我们的模型能够完美预测每个像素的未来。此属性保持的时间间隔很短，我们观察到回合持续长达50个时间步骤。将其扩展为长序列将是一个非常令人兴奋的研究方向。观看视频https://goo.gl/uyfNnW。

Benign errors. 尽管有上述积极的例子，但对于某些游戏，尤其是在学习的早期阶段，仍然很难获得准确的模型。但是，基于模型的RL应该容忍适度的模型误差。有趣的是，在某些情况下，我们的模型与原始游戏的区别在于对策略训练无害或仅有轻微危害。

　　例如，在Bowling和Pong中，球有时会分成两部分。虽然是非物理的，但似乎这些错误并没有极大地扭曲游戏的目标，请参见图10以及https://goo.gl/JPi7rB。

　　在Kung Fu Master中，我们的模型预测通过产生不同数量的对手而偏离了真实的游戏，请参见图11。在Crazy Climber中，我们观察到了这只鸟出现在游戏的早期。这些情况可能归因于模型中的随机性。尽管与实际环境不符，但预测的行为是合理的，并且由此产生的策略仍然可以发挥原始作用。

Failures on hard games. 在某些游戏中，我们的模型根本无法产生有用的预测。我们认为列出此类错误可能有助于设计更好的训练协议和建立更好的模型。最常见的失败是由于存在非常小但高度相关的目标。例如，在Atlantis和Battle Zone，子弹是如此之小，以至于它们往往会消失。有趣的是，Battle Zone具有伪3D图形，这可能会增加难度。观看视频https://goo.gl/uiccKU。

⁴ 我们强烈建议读者观看随附的视频https://goo.gl/itykP8

Model Based Reinforcement Learning for Atari

C ARCHITECTURE DETAILS

　　世界模型是我们算法的重要组成部分。因此，模型的神经网络架构起着至关重要的作用。该结构的高级概述在第4节和图2中给出。我们强调该模型是通用模型，而不是Atari特定模型，并且我们认为该模型可以处理其他视觉预测任务。整个模型具有大约74M的参数，推断/反向传播时间分别约为0.5s/0.7s，其中推断基于批处理大小16，反向传播针对批处理大小2，在NVIDIA Tesla P100上运行。这使我们的仿真器每帧大约需要32毫秒，而ALE仿真器的一步大约需要0.4毫秒。

　　下面我们提供有关结构的更多详细信息。首先，帧预测网络：

Model Based Reinforcement Learning for Atari

　　除了标记为"输出"的具有softmax激活的层和LSTM内部层之外，所有激活函数都是ReLU。在帧预测网络中，下采样层通过残差连接到相应的上采样层。在所有卷积和转置卷积层之前都先dropout 0.15，然后进行层归一化。隐预测器以8块顺序输出128比特。

D NUMERICAL RESULTS

　　下面我们给出了实验的数值结果。我们在7种配置上测试了SimPLe (请参见第A节中的描述)。对于每种配置，我们进行5个实验。为了评估第 i 个实验，我们使用了softmax(logits(π_i)/T)给出的策略，其中π_i是实验中的最终学习策略，T是温度参数。从经验上我们发现，T = 0.5在大多数情况下效果最优。暂时的解释是温度低于1的策略的随机性较低，因此更加稳定。但是，在许多情况下，降低到T = 0是有害的，因为这可能会使策略更容易出现模型的缺陷。

　　在表2中，我们给出了5个实验的均值和标准差。我们观察到中位数的表现非常相似，在表4中进行了报告。在此表中，我们还显示了5次运行的最高得分。有趣的是，在许多情况下，它们的确更高。我们希望，这表明我们的方法还有进一步达到这些更高分数的潜力。

　　人类得分是Pohlen et al. (2018)的表3中的"人类平均得分"。

Model Based Reinforcement Learning for Atari

E BASELINES OPTIMIZATION

　　为了评估SimPle的性能，我们将其与无模型算法进行比较。为了使此比较更加可靠，我们在低数据状态下对Rainbow进行了调整。为此，我们对https://github.com/google/dopamine/blob/master/dopamine/agents/rainbow/rainbow_agent.py中的以下参数运行超参数搜索：

update_horizon取自{1, 3}，最优参数 = 3
min_replay_history取自{500, 5000, 20000}，最优参数 = 20000
update_period取自{1, 4}，最优参数 = 4
target_update_period取自{50, 100, 1000, 4000}，最优参数 = 8000
replay_scheme取值{uniform, prioritized}，最优参数 = prioritized

　　每套超参数用于在Pong游戏中训练5个Rainbow智能体，直到与环境进行100万次交互。他们的平均性能用于选择最优超参数集。

　　对于PPO，我们使用来自https://github.com/openai/baselines的标准超参数集。

F RESULTS AT DIFFERENT NUMBERS OF INTERACTIONS

Model Based Reinforcement Learning for Atari