【问题标题】:How deepmind reduce the calculation for Q values for Atari games?deepmind 如何减少 Atari 游戏的 Q 值计算?
【发布时间】:2019-06-10 03:38:59
【问题描述】:

我们知道 q-learning 需要大量计算:

The huge amount of states in q-learning calculation

对于游戏 AI,它比 OX 游戏、GO 游戏需要更多的 q 值。

如何计算这些大量的 q 值?

谢谢。

【问题讨论】:

  • 它一次迭代地构建一个游戏树一个节点。查看蒙特卡洛树搜索 (MCTS)。
  • 对我来说,这确实不是一个简单的过程。 storage.googleapis.com/deepmind-media/alphago/…需要人详细解释一下。
  • 您能解释一下 MCTS 如何减少计算量吗?

标签: sql c tensorflow machine-learning reinforcement-learning


【解决方案1】:

MCTS 实际上并没有减少 q 值的任何计算。

对于一个非常简单的 Atari 游戏 AI,它需要的 q 值远不止 3^(19x19) 个。

检查深度 q 网络,它解决了您的问题。

我们可以用一个神经网络来表示我们的 Q 函数,这需要 状态(四个游戏画面)和动作作为输入和输出 对应的 Q 值。或者我们可以只使用游戏屏幕 作为每个可能动作的输入和输出 Q 值。这 方法的优点是,如果我们想要执行 Q 值 更新或选择 Q 值最高的动作,我们只需要做一个 前向通过网络并具有所有动作的所有 Q 值 立即可用。

https://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/

【讨论】:

  • Google 'deep q network' 你会得到大量的结果。
猜你喜欢
  • 2016-09-26
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2015-03-17
相关资源
最近更新 更多