总说
这篇论文是基于CoGAN的,下面是总体结构图:
文章假设来自两个不同domain的同种语义的图片具有相同的latent vector。比如白天的上海滩与黑夜的上海滩,都是上海滩(高层语义一致,即latent vector一致),而这种语义特征再经过解码成具体的表现形式(底层网络用于语义的具体表现形式)。
因此网络设计如下:
框架
总的loss:VAE+GAN+Cycle
VAE loss
后面的一项是NNL loss,这里用高斯分布来建模
GAN loss
Cycle loss
效果
感兴趣自己看论文吧:Unsupervised Image-to-Image Translation Networks