使用神经网络将旧系统更新为 Q-learning答案

【问题标题】：Updating an old system to Q-learning with Neural Networks使用神经网络将旧系统更新为 Q-learning
【发布时间】：2017-03-02 16:16:31
【问题描述】：

最近，我阅读了很多关于使用神经网络进行 Q-learning 的文章，并考虑更新电厂锅炉中现有的旧优化系统，该系统由一个简单的前馈神经网络组成，该网络近似于许多感官输入的输出。然后将输出链接到基于线性模型的控制器，该控制器以某种方式再次输出最佳动作，因此整个模型可以收敛到期望的目标。

识别线性模型是一项耗时的任务。我考虑过使用 Q 函数的神经网络逼近将整个事情翻新为无模型 Q 学习。我画了一个图表来问你我是否在正确的轨道上。

我的问题：如果您认为我很好地理解了这个概念，我的训练集是否应该由一侧的 State Features vectors 和 Q_target - Q_current 组成（这里我假设奖励增加）以强制整个模型朝着目标还是我错过了什么？

注意：该图显示了上半部分旧系统与下半部分我建议的更改之间的比较。

编辑：状态神经网络是否保证体验回放？

【问题讨论】：

标签： python machine-learning tensorflow artificial-intelligence reinforcement-learning

【解决方案1】：

您可能只是将当前状态下所有动作的所有 Q 值用作网络中的输出层。画得不好的图是 here

因此，您可以利用 NN 一次输出多个 Q 值的能力。然后，只需使用由Q(s, a) <- Q(s, a) + alpha * (reward + discount * max(Q(s', a')) - Q(s, a) 导出的损失进行反向支撑，其中max(Q(s', a')) 可以很容易地从输出层计算出来。

如果您还有其他问题，请告诉我。

【讨论】：