Multimodal Unsupervised Image-to-Image Translation

摘要

无监督的图像到图像转换是计算机视觉中的重要且具有挑战性的问题。给定源域中的图像，目标是学习目标域中的对应图像的条件分布，而不会看到对应图像对的任何示例。虽然这种条件分布本质上是多模态的，但现有方法做出了过于简化的假设，将其建模为确定性的一对一映射。结果，它们无法从给定的源域图像生成不同的输出。为了解决这个限制，我们提出了一种多模态无监督图像到图像转换（MUNIT）框架。我们假设图像表示可以分解为域不变的内容代码，以及捕获特定于域的属性的样式代码。要将图像转换为另一个域，我们会将其内容代码重新组合为随机从目标域的样式空间中采样的样式代码。我们分析了提出的框架并建立了几个理论结果。通过与现有技术方法的比较进行的广泛实验进一步证明了所提出的框架的优势。此外，我们的框架允许用户通过提供示例样式图像来控制翻译输出的样式。代码和预训练模型可从https://github.com/nvlabs/MUNIT获得。

符号

两个域： $\mathcal{X}_1 , \mathcal{X}_2$ .
样本： $x_1 (\in \mathcal{X}_1 ) , x_2 (\in \mathcal{X}_2 )$
边缘分布： $p(x_1) , p(x_2)$
编码器： $E_i ,i=1,2$
解码器： $G_i , i=1,2$
content code : $c (\in \mathcal{C})$
style code: $s_i (\in \mathcal{S}_i , i=1,2) , (c_i,s_i)=(E^\mathcal{C}_i(x_i) , (E^\mathcal{S}_i(x_i))=E_i(x_i)$
将图片 $x_1\in \mathcal{X}_1$ 迁移到 $\mathcal{X}_2$ ： $x_{1\to 2}$

模型

Multimodal Unsupervised Image-to-Image Translation

例子：将图片 $x_1\in \mathcal{X}_1$ 迁移到 $\mathcal{X}_2$

如图(a)所示： $E_i(x_i)=(c_i,s_i)=(E^\mathcal{C}_i(x_i) , (E^\mathcal{S}_i(x_i)) , i=1,2$ .
从先验分布 $q(s_2)\sim \mathcal{N}(0,I)$ 随机取style latent code : $s_2$ .
用 $G_2$ 产生最后的输出： $x_{1\to 2}=G_2(c_1,s_2)$ .

Loss

双向重构Loss(Bidirectional reconstruction loss)
- 图像重构 (image $\to$ latent $\to$ image)
  $\mathcal{L}_{recon}^{x_1}=\mathbb{E}_{x_1\sim p(x_1)}[\Vert G_1 (E^c_1(x_1),E_1^S(x_1))-x_1\Vert _1]$
- 隐层重构 (latent $\to$ image $\to$ latent)
  $\mathcal{L}_{recon}^{c_1}=\mathbb{E}_{c_1\sim p(c_1),s_2\sim q(s_2)}[\Vert E_2^c(G_2(c_1,s_2))-c_1 \Vert _1]$ $\mathcal{L}_{recon}^{s_1}=\mathbb{E}_{c_1\sim p(c_1),s_2\sim q(s_2)}[\Vert E_2^s(G_2(c_1,s_2))-s_2 \Vert _1]$
  其中 $p(c_1)$ 由 $c_1=E_1^c(x_1)$ 得到; $x_1 \sim p(x_1)$ .
Adversarial loss(对抗loss)
$\mathcal{L}_{GAN}^{x_2}=\mathbb{E}_{c_1\sim p(c_1),s_2\sim q(s_2)}[\log(1-D_2(G_2(c_1,s_2)))]+\mathbb{E}_{x_2\sim p(x_2)}[\log D_2(x_2)]$ .其中 $D_2$ 是用来判别数据是属于 $\mathcal{X}_2$ 还是迁移的.
Total Loss
$\min_{E_1,E_2,G_1,G_2} \; \max_{D_1,D_2}\mathcal{L}(E_1,E_2,G_1,G_2,D_1,D_2)=$ $\mathcal{L}_{GAN}^{x_1}+\mathcal{L}_{GAN}^{x_2}+\lambda_x(\mathcal{L}^{x_1}_{recon}+\mathcal{L}^{x_2}_{recon})+\lambda_c(\mathcal{L}_{recon}^{c_1}+\mathcal{L}_{recon}^{c_2})+\lambda_s(\mathcal{L}_{recon}^{s_1}+\mathcal{L}_{recon}^{s_2})$

理论分析

实现

Multimodal Unsupervised Image-to-Image Translation

content encoder：包含几个strided convolutional layers对输入进行下采样。还包含几个residual blocks进一步。所有的卷积层都跟着 normalization.
style encoder:几个strided convolutional layers，global average pooling层和全连接层。
decoder：