前言
近几年人脸属性迁移的课题不再是单纯地做跨域迁移,还要考虑迁移后的多样性(mutil-modal),因此这个方向开始跟风格迁移相结合。结合我最近看过的几篇论文,发现它们都使用了同一个零部件——AdaIN,而且截止文本发布时间,据谷歌学术显示,该方法的文献被引用量达到517次,说明该方法受到了研究者们一定的关注。因此我觉得有必要记录一下这个思路的起点,以便以后查阅。
AdaIN
文献全称:Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization
文献出处:[C]. international conference on computer vision, 2017: 1510-1519.
数据集: MS-COCO、WikiArt
论文贡献(亮点)
- 提出了一种自适应实例归一化(AdaIN)层。
实验效果图
其中红框内为该方法的实验效果图。
模型框架图
回顾IN与CIN
Instance Normailization
假设输入图像的4D tensor 为:,IN会将每个通道的feature map的均值和标准差进行归一化:
其中、是可学习的仿射参数;、分别表示均值和标准差,在空间维度上计算得到,独立于通道和批次。
Conditional Instance Normalization
IN是学习一个单一的仿射参数集(和),而CIN则是为每一种风格都学习一个仿射参数集(和):
在生成网络中应用CIN层,使用相同的卷积层参数和不同的IN层仿射参数便可以生成不同风格的图像。
但这种方法存在一个弊端,每一对仿射参数(和)对应一层feature map,一种风格则需要2F个参数,F表示整个网络中的feature map总数。因为仿射参数量和风格数成线性关系,这种方法开销较大,很难扩展出大量的风格。
Adaptive Instance Normalization(AdaIN)
与上述方法不同,AdaIN中没有可学习的仿射参数,即仿射参数不是通过学习得到。AdaIN接收两个信息源:内容输入和风格输入,将的通道级(channel-wise)均值和标准差匹配到的通道级均值和标准差上:
简单地来讲,AdaIN在feature map层面上通过改变特征的数据分布来实现风格迁移,计算开销和存储开销都较小,且易实现。
网络结构
网络结构只是简单的自编码器结构,没有使用到GAN.
内容图像和任意风格图像送入编码器进行编码,然后通过AdaIN层进行整合:
然后通过解码器将整合编码映射会图像空间。
为了保持AdaIN层风格迁移后的数据分布,解码器中不使用任何的归一化层。
损失函数
1.内容损失
其中为AdaIN层的输出,这里计算目标特征和输出图像特征的欧氏距离。
2.风格损失
其中表示编码器网络中的第i层。
总损失函数
总结
AdaIN是在feature map层面上改变数据分布,可以通过控制改变AdaIN层中的仿射参数来实现风格迁移的效果。因为AdaIN层与BN、IN类似,都是在网络内部改变feature map的分布,所以可以把风格迁移的任务交给AdaIN,在网络结构上实现其他的任务。
参考文献
1.Huang X, Belongie S. Arbitrary Style Transfer in Real-Time with Adaptive Instance Normalization[C]. international conference on computer vision, 2017: 1510-1519.