【发布时间】:2018-10-10 09:44:57
【问题描述】:
我是机器学习的新手,我正在尝试使用 Q-learning 解决 MountainCar-v0。我现在可以解决问题,但我仍然很困惑。
根据MountainCar-v0's Wiki,即使汽车已经到达目的地,每一步的奖励仍然是-1。不变奖励如何帮助智能体学习?如果每一步都给出相同的奖励,那么智能体如何判断这是好棋还是坏棋?
提前致谢!
【问题讨论】:
标签: machine-learning neural-network artificial-intelligence reinforcement-learning q-learning