Sarsa 用神经网络解决山地车任务答案

【问题标题】：Sarsa with neural network to solve the Mountain Car TaskSarsa 用神经网络解决山地车任务
【发布时间】：2017-07-29 15:24:27
【问题描述】：

我正在尝试实施 Sutton 书中描述的用于估计 q 的情景半梯度 Sarsa 以解决 Mountain Car Task。为了近似q，我想使用neural network。因此，我想出了this 代码。但遗憾的是，我的代理人并没有真正学会解决任务。在某些情节中，发现解决方案非常快（100-200 步），但有时代理需要超过 30k 步。我认为，我在实施过程中犯了一些基本错误，但我自己找不到。有人可以帮助我，并指出我的实施中的错误/错误吗？

【问题讨论】：

标签： reinforcement-learning sarsa

【解决方案1】：

我通过改变网络结构解决了这个问题：我没有使用(state, action) 对来预测它的Q-value，而是以DQN 的方式改变它：我预测value给定状态的所有三种可能的动作，然后根据这个预测选择动作。我以前的方法找不到问题，但至少现在可以了。

【讨论】：