【发布时间】:2017-07-29 15:24:27
【问题描述】:
我正在尝试实施 Sutton 书中描述的用于估计 q 的情景半梯度 Sarsa 以解决 Mountain Car Task。为了近似q,我想使用neural network。因此,我想出了this 代码。但遗憾的是,我的代理人并没有真正学会解决任务。在某些情节中,发现解决方案非常快(100-200 步),但有时代理需要超过 30k 步。我认为,我在实施过程中犯了一些基本错误,但我自己找不到。有人可以帮助我,并指出我的实施中的错误/错误吗?
【问题讨论】:
标签: reinforcement-learning sarsa