【发布时间】:2019-10-20 13:32:28
【问题描述】:
我正在使用来自website 的版本来指导他解决问题,但我有疑问: 对于 maxQ,我是否使用新状态 (s') 的所有 Q 表值来计算最大奖励 - 在我的情况下是 4 个可能的动作 (a'),每个动作都有各自的值 - 或 Q 表值的总和采取行动时的所有位置(a')?
换句话说,我是使用我可以采取的所有可能行动中的最高 Q 值,还是使用所有“相邻”方格的 Q 值之和?
【问题讨论】:
标签: c++ reinforcement-learning q-learning