deepmind 如何减少 Atari 游戏的 Q 值计算？

【问题标题】：How deepmind reduce the calculation for Q values for Atari games?deepmind 如何减少 Atari 游戏的 Q 值计算？
【发布时间】：2019-06-10 03:38:59
【问题描述】：

我们知道 q-learning 需要大量计算：

The huge amount of states in q-learning calculation

对于游戏 AI，它比 OX 游戏、GO 游戏需要更多的 q 值。

如何计算这些大量的 q 值？

谢谢。

【问题讨论】：

它一次迭代地构建一个游戏树一个节点。查看蒙特卡洛树搜索 (MCTS)。
对我来说，这确实不是一个简单的过程。 storage.googleapis.com/deepmind-media/alphago/…需要人详细解释一下。
您能解释一下 MCTS 如何减少计算量吗？

标签： sql c tensorflow machine-learning reinforcement-learning

【解决方案1】：

MCTS 实际上并没有减少 q 值的任何计算。

对于一个非常简单的 Atari 游戏 AI，它需要的 q 值远不止 3^(19x19) 个。

检查深度 q 网络，它解决了您的问题。

我们可以用一个神经网络来表示我们的 Q 函数，这需要状态（四个游戏画面）和动作作为输入和输出对应的 Q 值。或者我们可以只使用游戏屏幕作为每个可能动作的输入和输出 Q 值。这方法的优点是，如果我们想要执行 Q 值更新或选择 Q 值最高的动作，我们只需要做一个前向通过网络并具有所有动作的所有 Q 值立即可用。

https://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/

【讨论】：

Google 'deep q network' 你会得到大量的结果。