如何在 Q-learning 中计算 MaxQ？答案

【问题标题】：How do I calculate MaxQ in Q-learning?如何在 Q-learning 中计算 MaxQ？
【发布时间】：2019-10-20 13:32:28
【问题描述】：

我正在实现 Q 学习，特别是贝尔曼方程。

我正在使用来自website 的版本来指导他解决问题，但我有疑问：对于 maxQ，我是否使用新状态 (s') 的所有 Q 表值来计算最大奖励 - 在我的情况下是 4 个可能的动作 (a')，每个动作都有各自的值 - 或 Q 表值的总和采取行动时的所有位置（a'）？

换句话说，我是使用我可以采取的所有可能行动中的最高 Q 值，还是使用所有“相邻”方格的 Q 值之和？

【问题讨论】：

【解决方案1】：

对于所有可能采取的行动，您总是使用最大 Q 值。

我们的想法是选择具有最大（最佳）下一个状态 Q 值的动作，以保持最优策略 Qpi*。

【讨论】：