不变奖励如何帮助训练？答案

【问题标题】：How the invariant reward helps training?不变奖励如何帮助训练？
【发布时间】：2018-10-10 09:44:57
【问题描述】：

我是机器学习的新手，我正在尝试使用 Q-learning 解决 MountainCar-v0。我现在可以解决问题，但我仍然很困惑。

根据MountainCar-v0's Wiki，即使汽车已经到达目的地，每一步的奖励仍然是-1。不变奖励如何帮助智能体学习？如果每一步都给出相同的奖励，那么智能体如何判断这是好棋还是坏棋？

提前致谢！

【问题讨论】：

【解决方案1】：

我们的目标是让汽车尽快到达目的地。如果代理运行得很快，即使奖励仍然是负数，它仍然高于代理在相对缓慢的运行中获得的较低奖励。这种差异足以让智能体学习。这种环境的奖励系统鼓励代理尽快到达其目标目的地，因为它只有在达到该终端状态时才停止接收负奖励。

【讨论】：