Wasserstein GANs 三部曲（二）:Wasserstein GAN论文的理解

附论文地址：https://arxiv.org/abs/1701.07875

这一篇文章和下一篇讲提高WGAN的更有实际应用意义一些吧。转载请注明。

基础介绍

学习一个概率分布，通常我们是学习这个分布的概率密度函数，假设概率密度函数存在，且由多个参数组成即 Wasserstein GANs 三部曲（二）:Wasserstein GAN论文的理解，已知该分布下点集为，那么认为这些点既然出现了，就是概率最大的（相当于极大似然的思想）。问题就变成了求解使得。假设真实分布为，可以使用KL散度作为是否接近的标准。

在现实生活中我们处理的分布的支撑集都是低维的，也就是说两个分布的重叠部分测度为0，可以忽略不计，那么KL散度就没有办法衡量了。

一般的纠正办法是给模型的分布加一个有很大带宽的高斯分布，使得模型的分布覆盖所有的样本。但是，在最近的论文中提到在 Wasserstein GANs 三部曲（二）:Wasserstein GAN论文的理解的时候，噪声的最佳标准方差为0.1，又图像的每一个像素值介于0到1之间，致使噪声太大，同时也降低了图像的质量，并且使用这种模型的论文中也没有用这个，所以做法不可取。

相比估计 Wasserstein GANs 三部曲（二）:Wasserstein GAN论文的理解的概率密度函数，且这个密度函数还不一定存在，可以使用另一种方法：，其中Z是一随机变量，概率密度函数为，通过改变使得分布接近于真实分布（生成器的过程）。

在本篇论文中致力于研究测量两种分布之间距离的不同的方法，这些距离最重要的不同是对概率分布收敛的影响程度。

分布收敛的定义：记距离或者散度为 Wasserstein GANs 三部曲（二）:Wasserstein GAN论文的理解，分布序列收敛当且仅当存在一分布使得趋向于0.

连续的定义：如果参数 Wasserstein GANs 三部曲（二）:Wasserstein GAN论文的理解收敛到，那么分布就收敛到。

分布 Wasserstein GANs 三部曲（二）:Wasserstein GAN论文的理解是否收敛依赖于选择的计算距离的方法，之所以给出连续的定义，是想说如果损失函数连续，等同于连续。

论文分三部分：各种距离的比较、如何应用E-M距离、实验效果

第一部分：不同的距离定义

Wasserstein GANs 三部曲（二）:Wasserstein GAN论文的理解

假设分布是绝对连续的，且概率密度函数存在，服从同一测度

Wasserstein GANs 三部曲（二）:Wasserstein GAN论文的理解 , 其中=

Wasserstein GANs 三部曲（二）:Wasserstein GAN论文的理解

Wasserstein GANs 三部曲（二）:Wasserstein GAN论文的理解定义为联合分布的集合，且为其边缘分布。

简单明了的例子：

已知 Wasserstein GANs 三部曲（二）:Wasserstein GAN论文的理解，，

且 Wasserstein GANs 三部曲（二）:Wasserstein GAN论文的理解

那么图像可以表示成

Wasserstein GANs 三部曲（二）:Wasserstein GAN论文的理解

求得的各距离值度量如下：

Wasserstein GANs 三部曲（二）:Wasserstein GAN论文的理解

当 Wasserstein GANs 三部曲（二）:Wasserstein GAN论文的理解时，只有在EM距离下序列收敛到。

定理1：已知是空间上的固定分布，是空间上的随机变量，是一个由和确定的函数，代表其分布，那么

1.如果在上连续，也连续

2.如果满足条件1，且是利普西兹函数，那么处处连续且可微。

3. 和不满足以上性质。

第二部分：WassersteinGAN

公式 Wasserstein GANs 三部曲（二）:Wasserstein GAN论文的理解的下确界不好计算，改用来计算，其中为函数，也可以将用代替，那求的就是，因此等同于求解。

定理3即是这样，并且可以得到

Wasserstein GANs 三部曲（二）:Wasserstein GAN论文的理解

问题就变成了找到一个满足利普西兹函数条件的函数 Wasserstein GANs 三部曲（二）:Wasserstein GAN论文的理解，使得达到最大值。可以用带参数的神经网络确定函数，为使函数满足利普西兹条件，可以简单地将其参数截断到一个范围（比较简单）。被称为critic，生成模型的梯度传播为。