一、提出背景

论文作者认为:一个好的图像到图像的GAN模型,同时满足以下特性:
1)生成图像的多样性。既生成的图像不能太单一,具有一定的丰富性。
2)多领域的适应性。及能迁移人脸分割,也能在宠物图像上取得良好的效果。
现有的方法难以同时满足以上两点要求,因此们提出了StarGANv2。经过在CelebAHQ和AFHQ数据集上测试,表明在图像质量、多样性和可扩展性方面均具有一定优势。此外,作者提出了一个新的动物脸数据集(AFHQ),数据质量较高且变化丰富,并将这个数据集公开发布给研究社区。

PaddlePaddle论文复现营——StarGAN v2论文解读

二、重要概念

作者对域(domain)和风格(style)冠以比较广泛的定义。

  • 域:一个图像集合,其中的图片可以被分类为同一种具有视觉区分度的类型。例如男、女、猫、狗等。
  • 风格:每个图像具有的独特外观。风格则可以涵盖很多内容,比如妆容、胡子、发型等。

三、核心思想

在以前的方法中,传递迁移的条件信息是通过将属性向量输入到网络中来实现的,而本文介绍的方法没有采用这种方式,而是结合AdaIN来实现迁移的,即在feature map层面上将源图的数据分布匹配到style的分布上。
网络结构分为四个模块:生成器、多任务映射网络、多任务风格编码器和多任务判别器。
每个域的style code可由映射网络或风格编码器生成,两者的输出端都是多分支,每个分支的输出表示当前域的style code,而两者的区别为:

  • 映射网络:对随机高斯噪声进行编码,域y的style code可简单表示为

PaddlePaddle论文复现营——StarGAN v2论文解读

  • 风格编码器:对参考图片进行编码,域y的style code可简单表示为

PaddlePaddle论文复现营——StarGAN v2论文解读

  • 生成器:生成器部分有两个信息源:提供内容信息的源图片和来自某个域的style code。编码器部分提取源图片的深度特征,解码器部分负责将这些深度特征匹配到style code的数据分布上,也可以说是一种融合。
  • 多任务判别器:
    • 这里的判别器设计考虑到了信息源的问题,在之前的方法中,例如StarGAN,只有一个判别器,训练判别器的数据源来自整个训练集,而不是某一个特定的域,而生成器收到的反馈信号都是来自判别器,这样就相当于胡子眉毛一把抓。
    • 多任务判别器的输出端是多分支的,每一个分支的输出表示当前样本是否属于当前这个域,这样就做到了术业有专攻,每个题型都做好专项训练。PaddlePaddle论文复现营——StarGAN v2论文解读
    • 损失函数

1.对抗目标

 

PaddlePaddle论文复现营——StarGAN v2论文解读

2.风格重构

PaddlePaddle论文复现营——StarGAN v2论文解读

3.风格多样性

PaddlePaddle论文复现营——StarGAN v2论文解读

 

​4.保留源图特性

PaddlePaddle论文复现营——StarGAN v2论文解读

 

5.总损失函数

PaddlePaddle论文复现营——StarGAN v2论文解读

 

四、网络模型

PaddlePaddle论文复现营——StarGAN v2论文解读

生成器结构

PaddlePaddle论文复现营——StarGAN v2论文解读

映射网络

PaddlePaddle论文复现营——StarGAN v2论文解读

风格编码器结构

五、实验结果

人脸风格迁移

PaddlePaddle论文复现营——StarGAN v2论文解读

 

动物风格迁移

PaddlePaddle论文复现营——StarGAN v2论文解读

 

相关文章: