【问题标题】:What is phi in Deep Q-learning algorithm什么是深度 Q 学习算法中的 phi
【发布时间】:2017-02-12 10:10:26
【问题描述】:

我正在尝试使用 Java 从头开始​​制作一款学习型足球游戏,并且我正在尝试使用 Google DeepMind 的深度 Q 学习算法(虽然没有卷积网络)来实现强化学习。我已经构建了神经网络和 Q-learning,现在我正在尝试将它们总结在一起,但这段代码中有一些我不明白的地方。

  1. Q 值不是通常用零而不是随机值初始化吗?或者这是否意味着神经网络的权重(第 2 行)
  2. 什么是

预处理序列 Φ1 = Φ(s1)(第 4 行)

我只是想不通 Φ 在这个算法中代表什么。

【问题讨论】:

    标签: java machine-learning neural-network deep-learning q-learning


    【解决方案1】:
    1. 指神经网络的权重
    2. Φ(s)指的是预处理图/步骤,Φ是Φ(s1)的简写 每帧为 210x160 像素 x 128 色。论文中使用了一些预处理。它们消除闪烁,仅使用亮度,重新缩放和堆叠。 查看 2015 年论文中的“方法”部分。

    【讨论】:

    • 很好,谢谢!我之前什至没有找到 2015 年的那篇论文,我现在要读完。
    猜你喜欢
    • 2017-04-24
    • 2018-02-04
    • 1970-01-01
    • 2018-12-06
    • 1970-01-01
    • 2018-09-25
    • 2021-08-18
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多