StarGAN v2多邻域的多样化图像转换
大家好! 下面分享一篇在百度顶会复现营学习到的论文StarGAN v2: Diverse Image Synthesis for Multiple Domains
1.摘要
一个好的图像到图像的翻译模型应该学习一个在满足以下特性的同时,不同视觉域之间的映射:
(1)生成图像多样化
(2)多个域上具有可扩展性
所以作者提出了StarGAN v2,之前是有一个版本,大家感兴趣可以查阅下StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation
我们先来看下效果
2.主要工作
2.1 可伸缩性问题(多领域)
考虑到每个域中的不同风格样式的图像。设计和学习此类模型会变得很复杂,因为数据集中可能有大量的style和domain。
Domain:一组可以分为视觉上独特类别的图像
Style:每个图像都有唯一的外观
目前已有许多图像转换方法,但这些方法大都仅考虑两个域之间的映射。如果有K个域,这些方法需要训练K(K-1)生成器来处理每个域与每个域之间的转换。
2.2 多个域上可扩展性问题(多样性)
StarGAN是最早的针对多领域更具扩展性、统一的框架之一,但仍然学习每个域的确定性映射,没有掌握数据分布的多样性(mutil-modal)本质。
该限制的原因是每个域都由预先定义标签来表示。生成器接收固定的标签(例如一个one-hot向量)作为输入,在给定源图像下,每个域都产生相同输出。
3.StarGanv2 网络结构
StarGANv2,使用所提出的domain-specific style code替换域标签,前者可表示特定领域的各种风格样式。引入两个模块,一个映射网络mapping network和一个样式编码器style encoder。
映射网络学习将随机高斯噪声转换为样式码(style code),而编码器则学习从给定的参考图像中提取样式码。两个模块都具有多个输出分支,每个分支都提供特定域的样式码,训练时将选取其中对应domain的一个。
生成器Generator:将输入图像x转换为G(x,s),s为样式码style code,可以由映射网络F或者样式编码器E提供。使用adaptive instance normalization (AdaIN) 引入s。
生成器Generator:删除了上采样residual blocks中的所有shortcut,并使用基于adaptive wing based heatmap添加了跳跃连接。
映射网络Mapping network:网络包括k个输出分支,表示有k个域,给定隐变量z和对应的域y,生成样式码
样式编码器Style encoder:网络包括k个输出分支,表示有k个域,给定图像x及其对应的域y,编码器E提取x的样式码=。D代表了样式码S的维度。
鉴别器Discriminator:网络包括k个输出分支,表示有k个域,每个分支都学习一个二元分类,确定图像x是域y的真实图像还是G生成的伪图像,因此输出维度D被设定为1,作为real/fake的分类。
4.结果展示
原图像会根据参考图像做风格迁移
图像转换到参考图像的风格之外,还保留了原图基本的面部特征不使用原图像,使用隐变量引导的方法生成图像
论文代码https://github.com/clovaai/stargan-v2
5.结论
作者提出StarGAN v2,解决了两个图像到图像翻译的重要问题;将一个域的图像转换为目标域的不同图像,并支持多个目标域。实验结果表明,该模型能够在多个领域生成风格丰富的图像,明显由于以往方法。