【问题标题】:How the invariant reward helps training?不变奖励如何帮助训练?
【发布时间】:2018-10-10 09:44:57
【问题描述】:

我是机器学习的新手,我正在尝试使用 Q-learning 解决 MountainCar-v0。我现在可以解决问题,但我仍然很困惑。

根据MountainCar-v0's Wiki,即使汽车已经到达目的地,每一步的奖励仍然是-1。不变奖励如何帮助智能体学习?如果每一步都给出相同的奖励,那么智能体如何判断这是好棋还是坏棋?

提前致谢!

【问题讨论】:

    标签: machine-learning neural-network artificial-intelligence reinforcement-learning q-learning


    【解决方案1】:

    我们的目标是让汽车尽快到达目的地。如果代理运行得很快,即使奖励仍然是负数,它仍然高于代理在相对缓慢的运行中获得的较低奖励。这种差异足以让智能体学习。这种环境的奖励系统鼓励代理尽快到达其目标目的地,因为它只有在达到该终端状态时才停止接收负奖励。

    【讨论】:

      猜你喜欢
      • 2020-11-14
      • 2018-11-28
      • 2020-04-22
      • 1970-01-01
      • 2019-01-28
      • 2011-07-19
      • 1970-01-01
      • 2016-10-28
      • 1970-01-01
      相关资源
      最近更新 更多