理解和评估强化学习中的不同方法答案

【问题标题】：Understanding and Evaluating different methods in Reinforcement Learning理解和评估强化学习中的不同方法
【发布时间】：2021-04-14 14:46:33
【问题描述】：

我一直在尝试使用不同的变体在 Python 上实现强化学习算法，例如 Q-learning、Deep Q-Network、Double DQN 和 Dueling Double DQN。考虑一个车杆示例并评估每个变体的性能，我可以考虑将sum of rewards 绘制到number of episodes （附上绘图的图片）和实际的图形输出，其中杆有多好在推车移动时保持稳定。

但是这两个评估在定量解释更好的变体方面并不真正有趣。我是强化学习的新手，并试图了解是否有任何其他方法可以在同一问题上比较 RL 模型的不同变体。

我指的是 colab 链接 https://colab.research.google.com/github/ageron/handson-ml2/blob/master/18_reinforcement_learning.ipynb#scrollTo=MR0z7tfo3k9C 以获取有关购物车杆示例的所有变体的代码。

【问题讨论】：

标签： python reinforcement-learning openai-gym dqn

【解决方案1】：

您可以在有关这些算法的研究论文中找到答案，因为当提出一种新算法时，我们通常需要通过实验来证明它比其他算法具有优势。

关于 RL 算法的研究论文中最常用的评估方法是 平均回报（注意不是奖励，回报是累积奖励，就像游戏中的分数）随时间步长变化，你有很多方法可以平均回报，例如在Soft Actor-Critic paper的比较评估中，不同的超参数平均不同的随机种子（初始化模型）：

图 1 显示了评估推出期间的总平均回报 DDPG、PPO 和 TD3 的培训。我们训练五个不同的实例每个算法都有不同的随机种子，每个算法都执行一个每 1000 个环境步骤进行一次评估。实线曲线对应于平均值，阴影区域最小，五次试验的最大回报。

而且我们通常想要比较许多算法的性能，不仅在一个任务上，而且在不同的任务集（即基准测试）上，因为算法可能有某种形式的归纳偏差，使它们在某种形式的任务上更好，但在其他任务上更差任务，例如在Phasic Policy Gradient paper 的实验中与 PPO 的比较：

我们在 Procgen Benchmark 中报告环境结果（科布等人，2019）。该基准被设计为高度多样化，我们期望在这个基准上的改进能够很好地转移到许多其他 RL 环境

【讨论】：

谢谢@Mr.例如。这很有帮助
@mkpisk 很高兴为您提供帮助：)