任何用于 GAN 的异步训练方法？答案

【问题标题】：Any Asynchronous Training Methods for GAN?任何用于 GAN 的异步训练方法？
【发布时间】：2018-08-06 07:06:35
【问题描述】：

GAN 有时会在处理高维数据时变得非常不稳定。我们可以用异步方式训练 GAN 吗？就像我们有一个主生成器和判别器。但我们实际上使用来自多个从属生成器和判别器的梯度异步更新它。

【问题讨论】：

【解决方案1】：

您是否正在考虑使用异步方法进行 GAN 训练，类似于在 A3C 中使用异步更新的方式？

我猜想 RL 中异步方法的动机与您想要使用 GAN 中的异步方法解决的问题大不相同。

由于数据的非平稳性（即连续更新之间的高度相关性），RL 可能不稳定（没有异步方法）。使用异步方法解决这个问题是有道理的。

GAN 不稳定，因为在求解目标函数时采用了优化方法（例如 mini-max）。最近的 GAN 变体（例如渐进式 GAN）是对原始 GAN 的重大改进。就个人而言，我认为“模式崩溃”比稳定性更紧迫。

所以不确定异步方法是否是您正在寻找的解决 GAN 稳定性问题的答案。也许更好的优化方法（例如，在优化过程中对稳定性进行惩罚）可能是解决这个问题的更好方法？

【讨论】：

感谢您的有效回答。那么在我的网络中，生成器是一个无模型的 RL 代理。所以不知何故，我通过使用带有 PPO 的 A3C 方法使其稳定。现在我需要为模型注入某种模仿学习的味道。所以我使用了生成对抗模仿学习，并在 GAN 和 actor-critic 之间遵循了这篇论文arxiv.org/pdf/1610.01945.pdf(Connection。
我想确保我的生成器将 GAN 输出作为其奖励信号的一部分。然后我可以利用专家的数据。由于我的生成器是异步方式，但鉴别器也应该是异步的。但我找不到任何以前的工作。
哦，好吧，我不知道您使用 GAN 的背景。现在你问这个问题的原因更有意义了。也许有关于您在问题中要解决的问题的那部分内容？但是，您可以使用相同的多 GPU 深度网络方法吗？平均几个不同判别器的更新并用平均值更新单个master？
这是一个来回的过程，异步代理做自己的事情，将更新发送给主服务器，获取主服务器的更新版本，然后发送回异步代理。每 100 次迭代或类似的操作执行一次此过程。
你认为对鉴别器进行异步平均是不可取的吗？