论文阅读笔记|AdaGAN

AdaGAN

本文为阅读论文AdaGAN: Boosting Generative Models的理解与心得，旨在总结阐述该论文的核心思想与算法。
论文原址

AdaGAN

符号说明

在本文中符号说明如下：

Notations	Meaning
$P_{d}$	real data distribution
$P_{m o d e l}^{T}$	mixture model distribution of $T$ components
$P_{g}$	the current generative mixture model before adding new component
$P_{Z}$	noise distribution
$Q$	new component
$X$	data space
$Z$	latent space
$G$	generative function
$D_{M}$	mixture discriminator
$D_{f}$	$f$ -divergences
$S_{N}$	training sample

算法流程

AdaGAN算法流程如下

论文阅读笔记|AdaGAN

现在我们讨论的目标就是：
1. 证明这件事在数学上work；
2. 找到合适的 $C h o o s e M i x t u r e W e i g h t$ 和 $U p d a t e T r a i n g W e i g h t s$ 函数。
为了更直观地理解算法，而非论文，我们从后往前考虑该篇论文，即先看算法实现，再看数学证明。

算法实现

该论文提出的 $C h o o s e M i x t u r e W e i g h t$ 和 $U p d a t e T r a i n g W e i g h t s$ 函数如下：

ChooseMixtureWeight

根据GAN中使用的Jensen-Shannon divergence我们知道， $d P_{g} / d P_{d}$ 可以由一个corresponding function $h$ 与 $D_{M}$ 的值产生联系，即，

\frac{d P_{g}}{d P_{d}} (x) = h (D_{M} (x))

其中

h (z) = \frac{1 - z}{z}

。
在训练中，我们对于

S_{N} = (X_{1}, X_{2}, . . ., X_{N})

中的每一个训练样本

X_{i}

的权重

w_{i}

做更新，算法如下：

w_{i} = \frac{1}{β N} (λ^{*} - (1 - β) h (d_{i}))_{+}

其中

d_{i} = D_{M} (X_{i})

。
对于上式，我们还缺少

λ^{*}

和

β

的计算，其中对于

λ^{*}

，有

λ^{*} = \frac{β}{\sum_{i \in L (λ^{*})} p_{i}} (1 + \frac{1 - β}{β} \sum_{i \in L (λ^{*})} p_{i} h (d_{i}))

其中

L (λ) := {i : λ > (1 - β) h (d_{i})}

。

UpdateTraingWeights

$β_{t} = 1 / t$ ， $t$ 为迭代次数。

数学证明

就数学证明而言，我们首先要提出需要证明的结果，再推导证明过程。

证明目标

从算法流程中我们可以看出AdaGAN的核心思想是在每一次迭代中根据训练样本与混合权值训练一个弱生成器“weak” component generator $G_{t}^{c} = G A N (S_{N}, W_{t})$ ，再将这个弱生成器以加权的方式与上一次迭代的生成器混合得到本次迭代的生成器 $G_{t} = (1 - β_{t}) G_{t - 1} + β_{t} G_{t}^{c}$ 。

那么我们需要证明的目标就是这个迭代递增的生成器所生成的概率分布是向数据集的概率分布收敛的，这个收敛的过程可以由 $P_{m o d e l}^{t + 1}$ 与 $P_{d}$ 的散度描述。用数学语言描述就是将GAN的

min_{G} max_{D} E_{P_{d}} [\log D (X)] + E_{P_{Z}} [\log 1 - D (G (Z))]

问题转化为

min_{Q} D_{f} ((1 - β) P_{g} | | P_{d})

其中

P_{g} := P_{m o d e l}^{t}

（在符号说明中涉及）。

Q

为在第

t + 1

次迭代时添加的new component。

为了方便理解，此处将论文中未说明的 $P_{d}$ 与 $Q$ 的关系做简要说明。 $P_{g} := P_{m o d e l}^{t} := \sum_{i = 1}^{t} α_{i} P_{i}$ ，其有 $t$ components。
$P_{m o d e l}^{t + 1} := (1 - β) P_{m o d e l}^{t} + β Q = \sum_{i = 1}^{t} (1 - β) α_{i} P_{i} + β Q$ ，即 $Q$ 为第 $t + 1$ component，且权值为 $β$ ， $P_{i + 1} = Q, α_{i + 1} = β$ 。
那么，如果 $P_{g}$ 逐渐向 $P_{d}$ 收敛，该算法对 $Q$ 的需要程度将会减小，所以 $β$ 应是一个随迭代次数递减的数值。

但是我们知道，每一次都能得到最优解 $Q$ 是不可能的，所以对于这个收敛问题，我们可以弱化为一个逐步收敛问题：

D_{f} ((1 - β) P_{g} + β Q) \leq c \cdot D_{f} (P_{g} | | P_{d})

其中

c < 1

。

通过算法流程我们可以发现，每次迭代， $w_{i}$ （训练权重）与 $D_{M} (X_{i})$ （分辨效果）成负相关。特别地，当 $D_{M} (X_{i}) = 1$ （认为生成的为True）时 $w_{i} = 0$ ，当 $D_{M} (X_{i}) = 0$ （认为生成的为False）时 $w_{i} \to \infty$ 。即迭代增加 $Q$ 的目的是改变训练权重 $W_{t}$ ，使第 $t + 1$ 次训练着重于之前迭代中效果不好的数据集。

数学前提

f-divergence

首先我们讨论 $f - d i v e r g e n c e$

D_{f} (P | | Q) = \int_{Ω} f (\frac{d P}{d Q}) d Q .

用来衡量分布

Q

与分布

P

的agreement（不是距离）。
如果

P

和

Q

都对

μ

在

Ω

绝对连续，且

d P = p d μ

和

d Q = q d μ

，则

D_{f} (P | | Q) = \int_{Ω} f (\frac{p (x)}{q (x)}) q (x) d μ (x) .

常用的

f - d i v e r g e n c e

如下表所示

Divergence	Corresponding $f (t)$
KL-divergence	$t \log t$
Jensen-Shannon divergence	$- (x + 1) \log \frac{x + 1}{2} + x \log x$
reverse KL-divergence	$- \log t$
Hellinger distance	$(\sqrt{t} - 1)^{2}, 2 (1 - \sqrt{t})$
Total variation distance	$\frac{1}{2} \| t - 1 \|$
$X$ -divergence	$(t - 1)^{2}, t^{2} - 1$
$α$ -divergebce	$f (x) = {\begin{cases} \frac{4}{1 - α^{2}} (1 - t^{(} 1 + α) / 2), α \neq \pm 1 \\ t \ln t, α = 1 \\ - \ln t, α = - 1 \end{cases}$

AdaGAN的后续推导需要用到 $f - d i v e r g e n c e$ 的三个性质：

Non-negativity： $f - d i v e r g e n c e$ 始终为正；当且仅当 $P$ 和 $Q$ 重合时，它为0。
$D_{f} (P | | Q) = \int f (\frac{d P}{d Q}) d Q \geq f (\int \frac{d P}{d Q} d Q) = f (1) = 0.$
Monotonicity：如果 $κ$ 是任意过渡概率使 $P$ 和 $Q$ 相应地变为 $P_{κ}$ 和 $Q_{κ}$ ，然后
$D_{f} (P | | Q) \geq D_{f} (P_{κ} | | Q_{κ}) .$
Joint Convexity：对于任何 $0 \geq λ \geq 1$
$D_{f} (λ P_{1} + (1 - λ) P_{2} | | λ Q_{1} + (1 - λ) Q_{2}) \leq λ D_{f} (P_{1} | | Q_{1}) + (1 - λ) D_{f} (P_{2} | | Q_{2})$

更多关于 $K L d i v e r g e n c e$ 的知识见Kullback-Leibler Divergence Explained

GAN and f-divergences

GAN 原式：

min_{G} max_{D} E_{P_{d}} [\log D (X)] + E_{P_{Z}} [\log (1 - D (G (Z)))]

Generative Mixture Models

将复杂数据分布描述为 $T$ 个模型，则有：

P_{m o d e l}^{T} = \sum_{i = 1}^{T} α_{i} P_{i}