GAN的基本原理

GAN 简介

GAN的工作原理

generator 和 discriminator相互博弈：

discrimiator最大化真实样例与generator样例之间的差异
generator根据discriminator“反馈的指导信息”，更新参数，生成“更靠谱”的样例，减小与真实样例的差异。

Minimax Game:

m i n_{G} m a x_{D} V (G, D)

在origin GAN中：

V = E_{x \sim P_{d a t a}} [l o g D (x)] + E_{x \sim P_{G}} [l o g (1 - D (x))]

一般而言，G是neural network, 它从一个先验分布

P_{z}

,生成x,上式写成：

V = E_{x \sim P_{d a t a}} [l o g D (x)] + E_{z \sim P_{z}} [l o g (1 - D (G (z)))]

GAN的应用示例

目前，Tensorflow 1.4已经提供了一些gan的实现，在tf.contrib.gan中；另外，有很多开源的GAN的实现。（示例略，可以参加mnist上的各种实验和DCGAN、WGAN等生成的图片）

GAN与ML

LR判别模型

样本实例集合： $D = {(x^{i}, y^{i})}_{i = 1}^{n}$
利用最大似然(ML), 求解判别模型： $h_{θ} (x) = \frac{1}{1 + e^{- θ^{T} x}}$

θ^{*} = a r g m a x \frac{1}{n} \sum_{i = 1}^{n} y^{i} l o g h_{θ} (x^{i}) + (1 - y^{i}) l o g (1 - h_{θ} (x^{i})) = a r g m a x \frac{1}{n} \sum_{y^{i} = 1} l o g h_{θ} (x^{i}) + \sum_{y^{j} = 0} l o g (1 - h_{θ} (x^{j})) = a r g m a x \frac{| D_{1} |}{n} \frac{1}{| D_{1} |} \sum_{D_{1}} l o g h_{θ} (x^{i}) + \frac{| D_{0} |}{n} \frac{1}{| D_{0} |} \sum_{D_{0}} l o g h_{θ} (x^{j}) = a r g m a x P (y = 1) E_{x \sim P (x | y = 1)} [l o g h_{θ} (x)] + P (y = 0) E_{x \sim P (x | y = 0)} [l o g (1 - h_{θ} (x))]

事实上，当假设空间

h_{θ} (x)

有足够强的表征能力，（比如真实分布确实由LR模型生成，或者

h_{θ}

是深层神经网络，可以表征任意函数）；通过求导，可以得到最优解为：

h_{θ}^{*} (x) = \frac{P (y = 1) P (x | y = 1)}{P (y = 1) P (x | y = 1) + P (y = 0) P (x | y = 0)} = \frac{P (x, y = 1)}{P (x)} = P (y = 1 | x)

(额，貌似推理了一句废话，不过这个公式正说明，当我们采用ML或者cross entropy的时候，最优解正是后验概率（条件概率），前提是

h_{θ} (x)

有足够强的表征能力。推导这个式子，也可以和后面推导

D^{*}

相互验证)
观察式子：

$x^{i}$ 是正例， $h_{θ} (x^{i})$ 尽可能大，接近1
$x^{j}$ 是负例， $h_{θ} (x^{j})$ 尽可能小，接近0
或者添加负号，可以从极小化negative log loss的角度考虑。

对于GAN而言，某种程度上，D是h:

$x^{i} \sim P_{d a t a}$ , 是“正例”，判别器D应使得 $D (x^{i})$ 尽可能大，接近1，即极大化 $l o g (D (x^{i}))$
$x^{j} \sim P_{G}$ , 是“负例”，判别器D应使得 $D (x^{j})$ 尽可能小，接近0, 即极大化 $l o g (1 - D (x^{j}))$
类似地，忽略先验概率，V函数定义为 $V = E_{x \sim P_{d a t a}} [l o g D (x)] + E_{x \sim P_{G}} [l o g (1 - D (x))] = E_{x \sim P_{d a t a}} [l o g D (x)] + E_{z \sim P_{z}} [l o g (1 - D (G (z)))]$ , 而 $D^{*} = m a x_{D} V (G, D)$ ; （这里忽略 $P (y)$ ,两类先验概率相等，正对应后面训练D时，进行相等数量的sample）

事实上，训练判别器D的过程，正是使用ML求解二分类问题：

sample $x^{1}, x^{2} \dots x^{n}$ from $P_{d a t a} (x)$ , 作为正例
sample $\tilde{x^{1}}, \tilde{x^{2}} \dots \tilde{x^{n}}$ from $P_{G} (x)$ （实际是sample z），作为负例
利用最大似然求解 $V = \frac{1}{n} \sum_{i = 1}^{n} l o g D (x^{i}) + \frac{1}{n} \sum_{i = 1}^{n} l o g (1 - D ({\tilde{x}}^{i}))$

(同样的思想，有“NCE”， “negative sampling”)

ori-GAN和ML分别衡量不同的divergency

ML 衡量生成模型与真实概率分布的KL距离
ori-GAN衡量JS距离

ML and KL divergency

未知的真实分布： $P_{d a t a} (x)$
样本实例集： $D = {x^{i}}_{i = 1}^{n}$ ，采样自 $P_{d a t a} (x)$
假设空间中的生成模型： $P_{G} (x; θ)$ 来模拟 $P_{d a t a} (x)$
根据ML原则：

θ^{*} = a r g m a x_{θ} \prod_{i = 1}^{n} P_{G} (x^{i}; θ) = a r g m a x_{θ} \frac{1}{n} \sum_{i = 1}^{n} l o g P_{G} (x^{i}; θ) \approx a r g m a x_{θ} E_{x \sim P_{d a t a} [l o g P_{G} (x; θ)]} = a r g m a x_{θ} \int_{x} P_{d a t a} (x) l o g P_{G} (x; θ) d x - \int_{x} P_{d a t a} (x) l o g P_{d a t a} (x) d x = a r g m i n_{θ} K L (P_{d a t a} (x) | | P_{G} (x; θ))

所以，对生成模型采用ML原则，实际最小化KL距离。

origin-GAN and JS Divergency

给定G, 求解 $D^{*} = m a x_{D} V (G, D)$ ；此时 $V (G, D *)$ 衡量 $P_{d a t a}, P_{G}$ 之间JS divergency

m a x_{D} V (G, D) = m a x_{D} \int_{x} [P_{d a t a} (x) l o g D (x) + P_{G} (x) l o g (1 - D (x))] d x \Rightarrow D^{*} (x) = \frac{P_{d a t a} (x)}{P_{d a t a} (x) + P_{G} (x)}

类比前面的LR的最优解 $h_{θ}^{*} (x)$ ， $D^{*}$ 表示在先验概率相等的前提下，后验概率 $P (x 来自于真实 d a t a | x)$

此时，

V (G, D^{*}) = \int_{x} [P_{d a t a} (x) l o g \frac{P_{d a t a} (x)}{P_{d a t a} (x) + P_{G} (x)} + P_{G} (x) l o g (1 - \frac{P_{d a t a} (x)}{P_{d a t a} (x) + P_{G} (x)})] d x = \int_{x} [P_{d a t a} (x) l o g \frac{P_{d a t a} (x)}{(P_{d a t a} (x) + P_{G} (x)) / 2} + P_{G} (x) l o g \frac{P_{G} (x)}{(P_{d a t a} (x) + P_{G} (x)) / 2}] d x - 2 l o g 2 = K L (P_{d a t a} (x) | | \frac{P_{d a t a} (x) + P_{G} (x)}{2}) + K L (P_{G} (x) | | \frac{P_{d a t a} (x) + P_{G} (x)}{2}) - 2 l o g 2 = 2 J S D (P_{d a t a}, P_{G}) - 2 l o g 2

求解G使得 $G^{*} = m i n_{G} V (G, D^{*})$

GAN的训练过程

GAN的基本原理
（GAN的完整训练过程。图片来自于“李宏毅深度学习”课程）
(Ian Goodfellow, 在原始论文中改训练G为 $- l o g (D (G (z)))$ , 这个训练目标是从收敛的角度来考虑的)

GAN的特别之处在哪里？

ML的训练会可能很麻烦：采用显式的概率分布（模型空间可能不够准确）；采用隐式的概率推断会涉及比较复杂的方法
GAN提供了另外一种方案，它直接利用BP来优化概率分布距离的方法：求解generator和discriminator的minimax博弈。generator和discriminator都采用neural network，有足够强大的表征能力（给一个表征能力的实验）。
GAN提供了一个框架，可以将ML纳入进来，甚至可以按需设计其它的函数V（参见fGAN）

那么能否在GAN的框架下，将ML与原始GAN统一起来？能否使用其它的概率距离度量？

fGAN: GAN的统一框架

f-divergency

定义：

D_{f} (P | | Q) = \int_{x} q (x) f (\frac{p (x)}{q (x)}) d x, 且 f 是 c o n v e x, f (1) = 0

例子：

$f = x l o g x, D_{f} (P | | Q) = K L (P | | Q)$
$f = - l o g x, D_{f} (P | | Q) = r e v s e r s e K L (P | | Q)$
$f = u l o g u - (u + 1) l o g (u + 1), D_{f} (P | | Q) = 2 J S (P | | Q) - 2 l o g 2$
f=ulogu-(u+1)log(u+1), D_f(P||Q) =2JS(P||Q) - 2log2$

Fenchel Conjugate:

f^{*} (t) = max_{x \in D o m (f)} {x t - f (x)}

f (x) = max_{t \in D o m (f^{*})} {x t - f^{*} (t)}

（注：

f^{*} (t)

也是convex, 它是一系列仿射函数的max）

事实上，Fenchel Conjugate定义了“斜率（梯度）到截距”的一种映射
当固定 $t$ , $f^{*} (t) = max_{x \in D o m (f)} {x t - f (x)}$ , 通过对x求导得到：

t = f^{'} (x), f^{*} (t) = x f^{'} (x) - f (x)

上式可以看做参数方程的形式定义了

f^{*}

，它的几何意义：对任意的x，作f(x)的切线，斜率为t, 与y的截距的负数为

f^{*} (t)

; 它定义了斜率和负截距的映射关系。

重要的是，上述映射关系的对偶性质！

与GAN的联系

D_{f} (P | | Q) = \int_{x} q (x) f (\frac{p (x)}{q (x)}) d x = \int_{x} q (x) max_{t \in d o m (f^{*})} {t \frac{p (x)}{q (x)} - f^{*} (t)} d x \geq max_{t \in d o m (f^{*})} \int_{x} p (x) t d x - \int_{x} q (x) f^{*} (t) d x

这里，令D(x) = t, 上式的下界可以写作：

max_{D} \int_{x} p (x) D (x) d x - \int_{x} q (x) f^{*} (D (x)) d x = max_{D} {E_{x \sim p} [D (x)] - E_{x \sim q} [f^{*} (D (x))]}

(事实上，如果D(x)表征能力足够强，最优解为

D^{*} (x) = f^{'} (\frac{p (x)}{q (x)})

,但是这个无法直接求解 )
对于GAN而言：

D_{f} (P_{d a t a} | | P_{G}) \approx max_{D} {E_{x \sim P_{d a t a}} [D (x)] - E_{x \sim P_{G}} [f^{*} (D (x))]}

写成minimax形式：

G^{*} = \arg min_{G} max_{D} V (G, D)

按需挑选不同的f-divergency:

GAN的基本原理

(不同的f-divergency对应的GAN, 图片来自于论文 f-GAN)

WGAN：解决收敛性问题

origin-GAN面临的收敛问题

理想情况：D 指导 $P_{G}$ 往真实分布 $P_{d a t a}$ (dashed)运动

GAN的基本原理
实际情况：D训练越好，完美区分，梯度消失，无指导能力

考虑”parallel lines distribution”, 二维分布 $P_{d a t a} : (0, Z), 其中 Z \sim U [0, 1]$ , $P_{G} : (θ, Z)$ :

$J S (P_{d a t a}, P_{G}) = | θ |$
$K L (P_{d a t a} | | P_{G}) = K L (P_{G} | | P_{d a t a}) = + \infty (θ \neq 0), 0 (θ = 0)$
Discriminator D往往能将 $P_{d a t a}, P_{G}$ 完美分开
如上图所示，在D看来， $d_{0}, d_{50}$ 的JSD都是log2; D没有动力，让 $P_{G}$ 往“期望的方向”移动，会导致收敛问题
事实上，像生物进化一样，进化（比如眼睛）往往不是一蹴而就的；应该有更合适的度量方式，使得 $P_{G}$ 向 $P_{d a t a}$ “靠拢”（虽然此时JSD看来，generator并没有改善）

Earth Mover’s Distance

定义：对于概率分布P,Q，average distance of a plan $γ$ :

B (γ) = \sum_{x_{p}, x_{q}} γ (x_{p}, x_{q}) | | x_{p}, x_{q} | |

Earth Mover’s Distance:

W (P, Q) = min_{γ \in Π} B (γ)

示意图如下：
本质上，

γ

就是一个联合概率，它的边缘分布分别为

P, Q

（Moving Plan, 图片来自于“李宏毅深度学习”）
在上面的parallel line distribution例子里,

$W (P_{d a t a}, P_{G}) = | θ |$

WGAN

论文中证明，当我们采用Earth Mover’s Distance来度量 $P_{d a t a}, P_{G}$ 距离，相应的GAN形式如下(Kantorovich-Rubinstein duality, 来自论文“Optimal Transport: Old and New”)：

W (P_{d a t a}, P_{G}) = max_{D \in 1 - l i p s c h i t z} {E_{x \sim P_{d a t a}} [D (x)] - E_{x \sim P_{G}} [D (x)]}

其中，1-lipschitz 是指：

| | D (x_{1}) - D (x_{2}) | | \leq | | x_{1} - x_{2} | |

该条件的限制，防止了D(x)的变化过于剧烈。这里，整个优化目标有点“返璞归真”的意思了。
WGAN的论文中，使用weight-clipping近似1-lipschitz 条件：

权重 $| w | > c \Rightarrow | w | = c$
实际使用的是k-lipschitz
可以看到origin GAN 会存在梯度消失，无法有效指导 $P_{G}$ 的方向
WGAN可以提供有效信息。
$W (P_{d a t a}, P_{G})$ 的值可以作为训练好坏的参考

improved WGAN

将WGAN的1-lipschitz条件以惩罚项的形式引入：

W (P_{d a t a}, P_{G}) = max_{D} {E_{x \sim P_{d a t a}} [D (x)] - E_{x \sim P_{G}} [D (x)]} - λ E_{x \sim P_{p e n a l t y}} [(| | \nabla_{x} D (x) | | - 1)^{2}]

$P_{p e n a l t y}$ 的生成：对于 $x \sim P_{d a t a}, \tilde{x} \sim P_{G}$ , 计算 $x ， \tilde{x}$ 之间的随机点，作为 $x^{'} \sim P_{p e n a l t y}$

GAN的家族

Modify the optimization of GAN	Different structure from the original GAN
fGAN	Conditional GAN
WGAN	Semi-GAN
Least-square GAN	InfoGAN
Loss Sensitive GAN	BiGAN
Energy-based GAN	Cycle GAN
Boundary-Seeking GAN	IRGAN
Unroll GAN	VAE GAN
…	…