【问题标题】:Any Asynchronous Training Methods for GAN?任何用于 GAN 的异步训练方法?
【发布时间】:2018-08-06 07:06:35
【问题描述】:

GAN 有时会在处理高维数据时变得非常不稳定。我们可以用异步方式训练 GAN 吗?就像我们有一个主生成器和判别器。但我们实际上使用来自多个从属生成器和判别器的梯度异步更新它。

【问题讨论】:

    标签: generative-adversarial-network


    【解决方案1】:

    您是否正在考虑使用异步方法进行 GAN 训练,类似于在 A3C 中使用异步更新的方式?

    我猜想 RL 中异步方法的动机与您想要使用 GAN 中的异步方法解决的问题大不相同。

    由于数据的非平稳性(即连续更新之间的高度相关性),RL 可能不稳定(没有异步方法)。使用异步方法解决这个问题是有道理的。

    GAN 不稳定,因为在求解目标函数时采用了优化方法(例如 mini-max)。最近的 GAN 变体(例如渐进式 GAN)是对原始 GAN 的重大改进。就个人而言,我认为“模式崩溃”比稳定性更紧迫。

    所以不确定异步方法是否是您正在寻找的解决 GAN 稳定性问题的答案。也许更好的优化方法(例如,在优化过程中对稳定性进行惩罚)可能是解决这个问题的更好方法?

    参考资料 On Convergence and Stability of GANs

    【讨论】:

    • 感谢您的有效回答。那么在我的网络中,生成器是一个无模型的 RL 代理。所以不知何故,我通过使用带有 PPO 的 A3C 方法使其稳定。现在我需要为模型注入某种模仿学习的味道。所以我使用了生成对抗模仿学习,并在 GAN 和 actor-critic 之间遵循了这篇论文arxiv.org/pdf/1610.01945.pdf(Connection
    • 我想确保我的生成器将 GAN 输出作为其奖励信号的一部分。然后我可以利用专家的数据。由于我的生成器是异步方式,但鉴别器也应该是异步的。但我找不到任何以前的工作。
    • 哦,好吧,我不知道您使用 GAN 的背景。现在你问这个问题的原因更有意义了。也许有关于您在问题中要解决的问题的那部分内容?但是,您可以使用相同的多 GPU 深度网络方法吗?平均几个不同判别器的更新并用平均值更新单个master?
    • 这是一个来回的过程,异步代理做自己的事情,将更新发送给主服务器,获取主服务器的更新版本,然后发送回异步代理。每 100 次迭代或类似的操作执行一次此过程。
    • 你认为对鉴别器进行异步平均是不可取的吗?
    猜你喜欢
    • 2020-06-24
    • 1970-01-01
    • 2018-12-06
    • 1970-01-01
    • 1970-01-01
    • 2021-11-19
    • 1970-01-01
    • 2021-06-30
    • 1970-01-01
    相关资源
    最近更新 更多