【问题标题】:DDPG policy gradient using DeepLearning4J使用 DeepLearning4J 的 DDPG 策略梯度
【发布时间】:2017-10-03 07:20:31
【问题描述】:

我正在尝试使用DeepLearning4j 库在Java 中实现deep deterministic policy gradient algorithm,但是我在有效实现策略梯度方面遇到了一些麻烦。

在许多 tensorflow 实现中,策略梯度是使用以下简单命令计算的

tf.gradients(output, network_params, -action_gradient)

这是否也可以使用 DeepLearning4J 库以简单的方式完成?

【问题讨论】:

  • 你可能想看看 rl4j:github.com/deeplearning4j/rl4j 我们有 a3c、策略梯度,......以及尚未构建的内容
  • 我研究了 DQN 和 A3C 的实现,但我认为这是不同的。 DDPG 有以下policy gradient。 Q 的动作梯度不是问题,而是策略输出的梯度与参数有关。在其他实现中,可以使用明确的损失函数,但我不知道如何在这里做到这一点。重新表述我的问题。 1)你如何获取参数的输出梯度?所以对于 2 个输出和 10 个参数,梯度应该是 2x10。 2)我可以将它与Q的动作梯度有效地结合起来吗?

标签: deep-learning gradient-descent reinforcement-learning deeplearning4j


【解决方案1】:

【讨论】:

  • 欢迎来到 Stack Overflow。始终欢迎提供指向潜在解决方案的链接,但请在链接周围添加上下文,以便您的其他用户了解它是什么以及为什么存在。始终引用重要链接中最相关的部分,以防目标站点无法访问或永久离线。考虑到仅仅是指向外部站点的链接是Why and how are some answers deleted? 的一个可能原因
猜你喜欢
  • 2017-03-19
  • 1970-01-01
  • 2020-02-23
  • 1970-01-01
  • 2019-07-11
  • 2018-06-28
  • 1970-01-01
  • 1970-01-01
  • 2018-11-18
相关资源
最近更新 更多