【发布时间】:2017-02-12 10:10:26
【问题描述】:
我正在尝试使用 Java 从头开始制作一款学习型足球游戏,并且我正在尝试使用 Google DeepMind 的深度 Q 学习算法(虽然没有卷积网络)来实现强化学习。我已经构建了神经网络和 Q-learning,现在我正在尝试将它们总结在一起,但这段代码中有一些我不明白的地方。
- Q 值不是通常用零而不是随机值初始化吗?或者这是否意味着神经网络的权重(第 2 行)
- 什么是
预处理序列 Φ1 = Φ(s1)(第 4 行)
我只是想不通 Φ 在这个算法中代表什么。
【问题讨论】:
标签: java machine-learning neural-network deep-learning q-learning