【问题标题】:Updating an old system to Q-learning with Neural Networks使用神经网络将旧系统更新为 Q-learning
【发布时间】:2017-03-02 16:16:31
【问题描述】:

最近,我阅读了很多关于使用神经网络进行 Q-learning 的文章,并考虑更新电厂锅炉中现有的旧优化系统,该系统由一个简单的前馈神经网络组成,该网络近似于许多感官输入的输出。然后将输出链接到基于线性模型的控制器,该控制器以某种方式再次输出最佳动作,因此整个模型可以收敛到期望的目标。

识别线性模型是一项耗时的任务。我考虑过使用 Q 函数的神经网络逼近将整个事情翻新为无模型 Q 学习。我画了一个图表来问你我是否在正确的轨道上。

我的问题:如果您认为我很好地理解了这个概念,我的训练集是否应该由一侧的 State Features vectorsQ_target - Q_current 组成(这里我假设奖励增加)以强制整个模型朝着目标还是我错过了什么?

注意:该图显示了上半部分旧系统与下半部分我建议的更改之间的比较。

编辑:状态神经网络是否保证体验回放?

【问题讨论】:

    标签: python machine-learning tensorflow artificial-intelligence reinforcement-learning


    【解决方案1】:

    您可能只是将当前状态下所有动作的所有 Q 值用作网络中的输出层。画得不好的图是 here

    因此,您可以利用 NN 一次输出多个 Q 值的能力。然后,只需使用由Q(s, a) <- Q(s, a) + alpha * (reward + discount * max(Q(s', a')) - Q(s, a) 导出的损失进行反向支撑,其中max(Q(s', a')) 可以很容易地从输出层计算出来。

    如果您还有其他问题,请告诉我。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2015-02-05
      • 2012-11-07
      • 1970-01-01
      • 2011-01-02
      • 1970-01-01
      • 1970-01-01
      • 2011-06-26
      • 2014-01-15
      相关资源
      最近更新 更多