2. Method
学习的目标是an unconditional generative model that captures the internal statistics of a single training image x
不同于纹理生成(texture generation),本文针对的图像都是general natural images
2.1. Multi-scale architecture

对于输入图像x的pyramid {x0,⋯,xN},对应各自的生成器{G0,⋯,GN},其中xn是将x尺寸缩小rn倍的图像,r>1是一个超参数,每一个Gn对应一个判别器Dn
训练首先从xN这一尺寸开始,GN将高斯白噪声zN转换为图像x~N
x~N=GN(zN)(1)
x~N包含了图像的general layout以及object的global structure,后续的Gn(n<N)逐渐地增加各种细节
如Figure 5所示,Gn接收的输入有2个,1是高斯白噪声zn,2是上一个尺度生成图像的上采样版本(x~n+1)↑r
x~n=Gn(zn,(x~n+1)↑),n<N(2)

更具体来说,Gn执行的操作如下,是一种残差的操作
x~n=(x~n+1)↑r+ψn(zn+(x~n+1)↑r)(3)
其中ψn是一个ConvNet,包含了5个block,每个block是Conv(3x3)-BatchNorm-LeakyReLU
2.2. Training
训练是从coarsest scale到finest scale,每一个GAN在训练好之后,就保持fixed状态
对于第n个GAN,损失函数包括adversarial term以及reconstruction term
Gnmin Dnmax Ladv(Gn,Dn)+αLrec(Gn)(4)
Adversarial loss
使用WGAN-GP loss
Reconstruction loss
必须保证存在一组noise,能够重构出原始图像x
因此事先选取一组{zNrec,zN−1rec,⋯,z0rec}={z∗,0,⋯,0},生成得到{x~Nrec,x~N−1rec,⋯,x~0rec}
于是对于n<N
Lrec=∥∥Gn(0,(x~n+1rec)↑r)−xn∥∥2(5)
对于n=N,Lrec=∥GN(z∗)−xN∥2