Learning Residual Images for Face Attribute Manipulation

Wei Shen， Rujie Liu
Fujitsu Research & Development Center, Beijing, China.
@CVPR2017

Introduction

作者提出想要对人脸的一些属性进行操控，结合生成模型来完成.
Learning Residual Images for Face Attribute Manipulation
当前主流的生成模型包括GAN以及VAE，但由于GAN模型是接收随机噪声来生成图片，因此无法对图片进行编码.而VAE的编码-解码结构也会对图像的重建质量造成损伤.在此，作者提出了将Face attribute manipulation 视为一种图像的变换，这种变换可以直接通过一个CNN来实现.本文提出 residual images 的观点，即仅学习两个图片中不同的部分，而保持其他部分不便.

Approach

Learning Residual Images for Face Attribute Manipulation
总体结构如上图所示，由于对面部属性(加上或去除眼镜，改变表情)是一个area specific的操作，因此网络的目标是学习前后之间的差异并直接与原始图片相加完成manipulation.
作者将G网络分为两个部分，分别对应于将negative属性变为positive属性的网络 $G_{0}$ 以及将pos属性变为neg属性的网络 $G_{1}$ ， $r_{0}$ 和 $r_{1}$ 分别代表了对应的残差部分.最终输出为

\tilde{x_{1}} = r_{1} + x_{1} = x_{1} + G_{i} (x_{i})

为了使获得的residual image更稀疏，还使用了L1正则化.

l_{p i x} (r_{i}) = | | r_{i} | |_{i}

右图展示了G网络的基本结构，将所有原始的图片（label 0、1）以及所有经过修改之后的图片（label 2）进行分类并计算 loss

l_{c l s} (t, p) = - l o g (p_{t})

以及用于保证其他部分内容不变性的pre loss:

l_{p e r} (x, \tilde{x}) = | | ϕ (x) - ϕ (\tilde{x}) | |_{1}

对于

G_{i}

的loss有

l_{G A N} = - l o g (D (G_{i} (x_{i})) i = 0

l_{G A N} = - l o g (1 - D (G_{i} (x_{i})) i = 1

Dual learning

在机器翻译中经常用到的优化手段，即第一个机制将A语言翻译为B语言（primal task）并将结果发送给第二个机制，由第二个机制判断B语言输入是否自然，第二个机制将B语言翻译为A语言（dual task）并发送给第一个机制，第一个机制判断收到的信息是否和原来的信息相符。在循环中进行训练。
Learning Residual Images for Face Attribute Manipulation
在本文中，对于给定的 $x_{0}$ ,通过网络 $G_{0}$ 得到 $\tilde{x_{0}}$ ，然后将 $\tilde{x_{0}}$ 送入网络 $G_{1}$ 得到 $\hat{x_{0}}$ ，此时 $\hat{x_{0}}$ 应该和 $\tilde{x_{0}}$ 有相同的属性。

l_{d u a l} (\tilde{x_{0}}) = - l o g (1 - D (G_{1 - i} (\tilde{x_{0}}))) i = 0,

l_{d u a l} (\tilde{x_{0}}) = - l o g (D (G_{1 - i} (\tilde{x_{0}}))) i = 1.

l_{G} = l_{G A N} + l_{d u a l} + α l_{p i x} + β l_{p e r}

l_{D} = l_{c l s}

Experiments

作者使用了CelebA数据集，选取了6个属性作为操控的对象： glasses, mouth open, smile, no beard, young, and male. CelebA数据集中没有对于操控后属性的ground truth.
Learning Residual Images for Face Attribute Manipulation