【飞桨】论文解读:U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization


该论文发布于2019年7月 题目是:U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation(基于GAN的新型无监督图像转换)
百度论文复现营课程:链接

论文简介

图像到图像的翻译旨在学习一种在两个不同域中映射图像的功能。这在包括图像修复,超分辨率,灰度图着色,风格迁移中都具有广泛应用。尽管在这方面发展迅速,但先前的方法仍显示出性能差异,具体取决于域之间形状和纹理的变化量。诸如网络结构或超参数设置需要针对特定的数据集进行调整等问题,作者提出了一种新的无监督图像到图像的翻译方法,该方法在端到端的方式中加入了一个新的注意模块一个新的可学习的归一化函数。通过使用注意力模块,使翻译关注更重要的区域,忽略次要区域,从而促进形状转换。除了注意机制外,作者发现对于形状和纹理变化量不同的数据集,归一化函数的选择对转换结果的质量有显著影响。

创新点

本文的创新点两处,提出了一种新的无监督图像到图像的翻译方法,该方法具有一个新的注意模块和一个新的归一化函数AdaLIN。

具体过程

数据集:
本文实验数据集:总共5个数据集;

【horse2zebra】 and【photo2vangogh】:这两个数据集主要是cyclegan论文实验的数据集;

【cat2dog】 and 【photo2portrait】:这两个数据集主要是DRIT实验的数据集;

【selfie2anime】:本文额外的数据集,自拍到漫画人脸,其中漫画数据集从http://www.anime-planet.com/采集,然后利用程序https://github.com/nagadomi/lbpcascade animeface检测出漫画人脸,crop后通过超分辨率得到256*256的漫画数据,包含46,836张自拍照,注释了36个不同的属性。

网络结构
【飞桨】论文解读:U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance
模型分为生成器和判别器两部分,生成器和判别器的结构几乎相同,在生成器多的部分就是 AdaLIN 和 Decoder部分,我们分析生成器,首先是对端的输入端进行图像的下采样,配合残差块增强图像特征提取,接下来就是注意力模块,接着就是对注意力模块通过 AdaLIN 引导下残差块,最后通过上采样得到转换后的图像。对于判别器相对于生成器而言,就是将解码过程换成判别输出。
Attention机制应用
【飞桨】论文解读:U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance

图源来自: csdn博客.
参数 weight 和 Encoder Feature map 做 multiply(对应位想乘)也就是对于 Encoder Feature map 的每一个通道,我们赋予一个权重,这个权重代表这一通道特征的重要性,这就是注意力机制在模型中的具体实现。

【飞桨】论文解读:U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance
AdaLIN 其实就是 Instance Normalization 和 Layer Normalization 的结合,学习参数为 ρ,AdaIN 会保留内容结构,而 LN 则做了全局的归一化,AdaLIN 的设计正是为了结合 AdaIN 和 LN 的优点。

基线模型

CycleGAN (Zhu et al. (2017))

UNIT(Liu et al. (2017))

MUNIT (Huang et al. (2018))

DRIT (Lee et al. (2018))

AGGAN (Mejjati et al.(2018))

CartoonGAN (Chen et al. (2018)).

在消融实验中显示的注意力图及其效果的可视化

【飞桨】论文解读:U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance

a)源图像,(b)生成器的注意图,(c-d)生成器的本地和全局注意图鉴别器。(e)使用CAM的结果,(f)不使用CAM的结果。

使用各归一化函数的结果的比较
【飞桨】论文解读:U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance
(a)源图像,(b)作者的结果,©仅使用IN的解码器与CAM的结果,(d)仅使用LN的解码器与的结果(e)用CAM解码器只使用AdaIN的结果,(f)用CAM解码器只使用GN的结果。

【飞桨】论文解读:U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance
从表中可以看出通过使用内核起始距离(KID)进行的消融研究证明了selfie2anime数据集中注意力模块和AdaLIN的性能,作者的模型实现了最低的KID值。即使将注意力模块和AdaLIN分开使用,作者的模型比其他模型表现更好。但是,一起使用时,性能会更好。

结论
文章里,作者提出无监督图像-图像翻译(U-GAT-IT),将注意力模块和AdaLIN应用到模型中,会达到更好的实验结果和视觉效果,通过实验,作者证明了与现有的基于gan的无监督图像-图像转换模型相比,该方法的优越性。

后期计划

使用PaddlePaddle框架复现该模型。

相关文章:

  • 2021-09-06
  • 2021-07-04
  • 2021-06-06
  • 2021-08-26
  • 2021-12-02
  • 2021-12-02
  • 2021-12-22
  • 2021-05-02
猜你喜欢
  • 2021-09-27
  • 2021-04-18
  • 2021-09-06
  • 2021-06-21
  • 2021-05-10
  • 2021-06-24
  • 2021-12-16
相关资源
相似解决方案