Face Video Generation from a Single Image and Landmarks

3. Proposed Framework

本文提出MotionGAN，给定source image $s$ 及其landmark $l$ ，还有一段target landmark序列 $l_1^T=\left [ l_1, l_2, \cdots, l_T \right ]$ ，生成的一段video $\tilde{f}_1^T=\left [ \tilde{f}_1, \tilde{f}_2, \cdots, \tilde{f}_T \right ]$

将2D landmark转换为heatmap image，如Figure 1所示
Face Video Generation from a Single Image and Landmarks

3.1. Sub Networks

Face Video Generation from a Single Image and Landmarks
如Figure 2所示，整个framework包括4个子网络：生成器 $G$ 、image
frame discriminator $D_f$ 、video discriminator $D_v$ 、verification network $V$

Generator $G$ ：如Figure 2(a)所示，生成器包含Encoder、LSTM Block、Decoder，生成器的输入是source image、source landmark、target landmark的叠加 $\left [ s, l, l_t \right ]$ ，注意图中LSTM的输入输出有一个skip connection，为了简化表达，我们忽略cell和hidden state，整个生成器负责生成 $T$ 帧视频序列
$\tilde{f}_1^T=G\left ( s, l, l_1^T \right ) \qquad(1)$
Frame Discriminator $D_f$ ：将真实图像 $f_t$ /生成图像 $\tilde{f}_t$ ，拼接上source image、source landmark、target landmark，得到 $\left [ s, l, f_t, l_t \right ], \left [ s, l, \tilde{f}_t, l_t \right ]$ ，作为 $D_f$ 的输入， $D_f$ 的结构采用patch-GAN
Video Discriminator $D_v$ ：将real video $f_1^T$ 或generated video $\tilde{f}_1^T$ ， $D_v$ 末端有2个分支，判别real/fake，同时预测每一帧的landmark
Verification Network $V$ ：是一个人脸识别的网络，涉及损失 $L_{id}$

3.2. Loss functions

3.2.1 Image Reconstruction Loss

对于生成器 $G$ ，采用pixel-wise $\ell_1$ norm 作为reconstruction loss
$L_{img}^G=\frac{1}{T}\sum_{t=1}^{T}\left \| G\left ( s, l, l_t \right ) - f_t \right \| \qquad(2)$
其中 $f_t$ 是ground truth image， $l_t$ 是ground truth landmark

3.2.2 Adversarial Loss

Frame Adversarial Loss：图像级别的对抗损失函数，作用在video的每一帧上
$\begin{aligned} L_{adv}^{D_f}=&\frac{1}{T}\sum_{t=1}^{T}\mathbb{E}_{f_t}\left [ \log\left ( D_f\left ( s, l, f_t, l_t \right ) \right ) \right ]+\\ &\mathbb{E}_{f_t}\left [ \log\left ( 1-D_f\left ( s, l, G\left ( s, l, l_t \right ), l_t \right ) \right ) \right ] \qquad(3) \end{aligned}$

Video Adversarial Loss：视频级别的对抗损失函数，作用于一个 $T$ 帧序列
$\begin{aligned} L_{adv}^{D_v}=&\mathbb{E}_{f_1^T}\left [ \log\left ( D_v\left ( f_1^T \right ) \right ) \right ]+\\ &\mathbb{E}_{l_1^T}\left [ \log\left ( 1-D_v\left ( G\left ( s, l, l_1^T \right ) \right ) \right ) \right ] \qquad(4) \end{aligned}$

Pairwise Feature Matching Loss：使用文献[4]中的feature matching loss增加训练的稳定性，以及增强生成图像的质量
$\begin{aligned} L_{adv}^G=&\frac{1}{T}\sum_{t=1}^{T}\left \| I_{D_f}\left ( G\left ( s, l, l_t \right ) \right ) - I_{D_f}\left ( f_t \right ) \right \|_2^2+\\ &\left \| I_{D_v}\left ( G\left ( s, l, l_1^T \right ) \right ) - I_{D_v}\left ( f_1^T \right ) \right \|_2^2 \qquad(5) \end{aligned}$
其中 $I_{D_f}, I_{D_v}$ 分别表示 $D_f, D_v$ 的中间层

3.2.3 Landmarks Reconstruction Loss

$D_v$ 同时也对图像的landmark进行预测，使用 $\ell_2$ 损失
$L_{lms}^{D_v}=\left \| D_v^l\left ( f_1^T \right )-l_1^T \right \|_2^2 \qquad(6)$

$G$ 也要使得生成图像的landmark具有最小的loss
$L_{lms}^G=\left \| D_v^l\left ( G\left ( s, l, l_1^T \right ) \right )-l_1^T \right \|_2^2 \qquad(7)$

4. Experiments

4.1. Implementation Details

$G$ 的目标函数： $\lambda_1L_{img}^G+\lambda_2L_{adv}^G+\lambda_3L_{lms}^G+\lambda_4L_{id}^G$
$D_f$ 的目标函数： $L_{adv}I^{D_f}$
$D_v$ 的目标函数： $\lambda_5L_{adv}^{D_v}+\lambda_6L_{lms}^{D_v}$

超参数设置： $\lambda_1=1, \lambda_2=0.01, \lambda_3=10, \lambda_4=0.1, \lambda_5=1, \lambda_6=100$

受限于memory size，设置 $T=4$

【总结】
本文着重解决人脸视频的生成问题，指定一个face image，再指定一系列landmark，就可以生成一段新的视频，技术上没有新的idea，都是一些已有技术的组合，生成效果上由于没有看到作者提供的视频，仅从文章中的每一帧图像来看，效果尚可