PaddlePaddle论文复现营——StarGAN v2论文解读

一、提出背景

论文作者认为：一个好的图像到图像的GAN模型，同时满足以下特性：
1）生成图像的多样性。既生成的图像不能太单一，具有一定的丰富性。
2）多领域的适应性。及能迁移人脸分割，也能在宠物图像上取得良好的效果。
现有的方法难以同时满足以上两点要求，因此们提出了StarGANv2。经过在CelebAHQ和AFHQ数据集上测试，表明在图像质量、多样性和可扩展性方面均具有一定优势。此外，作者提出了一个新的动物脸数据集（AFHQ），数据质量较高且变化丰富，并将这个数据集公开发布给研究社区。

二、重要概念

作者对域（domain）和风格（style）冠以比较广泛的定义。

域：一个图像集合，其中的图片可以被分类为同一种具有视觉区分度的类型。例如男、女、猫、狗等。
风格：每个图像具有的独特外观。风格则可以涵盖很多内容，比如妆容、胡子、发型等。

三、核心思想

在以前的方法中，传递迁移的条件信息是通过将属性向量输入到网络中来实现的，而本文介绍的方法没有采用这种方式，而是结合AdaIN来实现迁移的，即在feature map层面上将源图的数据分布匹配到style的分布上。
网络结构分为四个模块：生成器、多任务映射网络、多任务风格编码器和多任务判别器。
每个域的style code可由映射网络或风格编码器生成，两者的输出端都是多分支，每个分支的输出表示当前域的style code，而两者的区别为：

映射网络：对随机高斯噪声进行编码，域y的style code可简单表示为

PaddlePaddle论文复现营——StarGAN v2论文解读

风格编码器：对参考图片进行编码，域y的style code可简单表示为

PaddlePaddle论文复现营——StarGAN v2论文解读

生成器：生成器部分有两个信息源：提供内容信息的源图片和来自某个域的style code。编码器部分提取源图片的深度特征，解码器部分负责将这些深度特征匹配到style code的数据分布上，也可以说是一种融合。

多任务判别器：
- 这里的判别器设计考虑到了信息源的问题，在之前的方法中，例如StarGAN，只有一个判别器，训练判别器的数据源来自整个训练集，而不是某一个特定的域，而生成器收到的反馈信号都是来自判别器，这样就相当于胡子眉毛一把抓。
- 多任务判别器的输出端是多分支的，每一个分支的输出表示当前样本是否属于当前这个域，这样就做到了术业有专攻，每个题型都做好专项训练。
- 损失函数