【发布时间】:2019-06-10 03:38:59
【问题描述】:
我们知道 q-learning 需要大量计算:
The huge amount of states in q-learning calculation
对于游戏 AI,它比 OX 游戏、GO 游戏需要更多的 q 值。
如何计算这些大量的 q 值?
谢谢。
【问题讨论】:
-
它一次迭代地构建一个游戏树一个节点。查看蒙特卡洛树搜索 (MCTS)。
-
对我来说,这确实不是一个简单的过程。 storage.googleapis.com/deepmind-media/alphago/…需要人详细解释一下。
-
您能解释一下 MCTS 如何减少计算量吗?
标签: sql c tensorflow machine-learning reinforcement-learning