【发布时间】:2021-04-14 14:46:33
【问题描述】:
我一直在尝试使用不同的变体在 Python 上实现强化学习算法,例如 Q-learning、Deep Q-Network、Double DQN 和 Dueling Double DQN。考虑一个车杆示例并评估每个变体的性能,我可以考虑将sum of rewards 绘制到number of episodes (附上绘图的图片)和实际的图形输出,其中杆有多好在推车移动时保持稳定。
但是这两个评估在定量解释更好的变体方面并不真正有趣。我是强化学习的新手,并试图了解是否有任何其他方法可以在同一问题上比较 RL 模型的不同变体。
我指的是 colab 链接 https://colab.research.google.com/github/ageron/handson-ml2/blob/master/18_reinforcement_learning.ipynb#scrollTo=MR0z7tfo3k9C 以获取有关购物车杆示例的所有变体的代码。
【问题讨论】:
标签: python reinforcement-learning openai-gym dqn