【问题标题】:Sarsa with neural network to solve the Mountain Car TaskSarsa 用神经网络解决山地车任务
【发布时间】:2017-07-29 15:24:27
【问题描述】:

我正在尝试实施 Sutton 书中描述的用于估计 q 的情景半梯度 Sarsa 以解决 Mountain Car Task。为了近似q,我想使用neural network。因此,我想出了this 代码。但遗憾的是,我的代理人并没有真正学会解决任务。在某些情节中,发现解决方案非常快(100-200 步),但有时代理需要超过 30k 步。我认为,我在实施过程中犯了一些基本错误,但我自己找不到。有人可以帮助我,并指出我的实施中的错误/错误吗?

【问题讨论】:

    标签: reinforcement-learning sarsa


    【解决方案1】:

    我通过改变网络结构解决了这个问题:我没有使用(state, action) 对来预测它的Q-value,而是以DQN 的方式改变它:我预测value给定状态的所有三种可能的动作,然后根据这个预测选择动作。我以前的方法找不到问题,但至少现在可以了。

    【讨论】:

      猜你喜欢
      • 2015-04-24
      • 2018-06-05
      • 1970-01-01
      • 1970-01-01
      • 2018-02-15
      • 2012-06-03
      • 2010-12-09
      • 1970-01-01
      • 2023-03-10
      相关资源
      最近更新 更多