【问题标题】:Understanding and Evaluating different methods in Reinforcement Learning理解和评估强化学习中的不同方法
【发布时间】:2021-04-14 14:46:33
【问题描述】:

我一直在尝试使用不同的变体在 Python 上实现强化学习算法,例如 Q-learningDeep Q-NetworkDouble DQNDueling Double DQN。考虑一个车杆示例并评估每个变体的性能,我可以考虑将sum of rewards 绘制到number of episodes (附上绘图的图片)和实际的图形输出,其中杆有多好在推车移动时保持稳定。

但是这两个评估在定量解释更好的变体方面并不真正有趣。我是强化学习的新手,并试图了解是否有任何其他方法可以在同一问题上比较 RL 模型的不同变体。

我指的是 colab 链接 https://colab.research.google.com/github/ageron/handson-ml2/blob/master/18_reinforcement_learning.ipynb#scrollTo=MR0z7tfo3k9C 以获取有关购物车杆示例的所有变体的代码。

【问题讨论】:

    标签: python reinforcement-learning openai-gym dqn


    【解决方案1】:

    您可以在有关这些算法的研究论文中找到答案,因为当提出一种新算法时,我们通常需要通过实验来证明它比其他算法具有优势。

    关于 RL 算法的研究论文中最常用的评估方法是 平均回报(注意不是奖励,回报是累积奖励,就像游戏中的分数)随时间步长变化,你有很多方法可以平均回报,例如在Soft Actor-Critic paper的比较评估中,不同的超参数平均不同的随机种子(初始化模型):

    图 1 显示了评估推出期间的总平均回报 DDPG、PPO 和 TD3 的培训。我们训练五个不同的实例 每个算法都有不同的随机种子,每个算法都执行一个 每 1000 个环境步骤进行一次评估。实线曲线 对应于平均值,阴影区域最小, 五次试验的最大回报。

    而且我们通常想要比较许多算法的性能,不仅在一个任务上,而且在不同的任务集(即基准测试)上,因为算法可能有某种形式的归纳偏差,使它们在某种形式的任务上更好,但在其他任务上更差任务,例如在Phasic Policy Gradient paper 的实验中与 PPO 的比较:

    我们在 Procgen Benchmark 中报告环境结果 (科布等人,2019)。该基准被设计为高度 多样化,我们期望在这个基准上的改进能够很好地转移 到许多其他 RL 环境

    【讨论】:

    • 谢谢@Mr.例如。这很有帮助
    • @mkpisk 很高兴为您提供帮助:)
    猜你喜欢
    • 1970-01-01
    • 2023-02-01
    • 2015-07-21
    • 2018-12-04
    • 1970-01-01
    • 2011-02-14
    • 2018-11-05
    • 2021-12-20
    • 2016-10-24
    相关资源
    最近更新 更多