Neural Style Transfer: A Review
Abstract
Gatys等的工作展示了CNN用于艺术创作方面迷人的一面,这种将图像渲染成不同艺术风格的行为称为风格迁移9Neural Style Transfer,NST).本文旨在对NST的相关研究进展进行综述,在总结各种NST算法的基础上对每种方法进行定性/定量的分析。涉及到的论文及源码可参考:
Reference
Section I Introduction
绘画是一种艺术创作,千百年来人们为一些伟大的艺术创作所倾倒,如梵高的星空,但对画作进行特定风格的再现需要专业训练的画家完成;不仅如此也吸引了计算机科学家,来探究如何进行画作的艺术生成。
其中非真实性渲染(non-photorealistic rendering)在计算机图形学中广泛使用,但它们大多为某一种特定艺术风格设计的;而风格迁移解决的是一类通用问题,通过纹理特征的学习将图像从源域转换至目标风格域。
早期Hertzman等人的工作聚焦于提取低级特征有时不能很好捕获图像结构。近年来借助CNN的强大学习能力,Gatys等人率先使用CNN完成自然图像的风格迁移,通过与各预训练的CNN提取图像的内容表征和风格表征,通过迭代优化内容损失函数和风格损失函数最总完成图像的风格迁移。Fig1展示了一张将长城迁移成国画《富春山居图》的风格,Gatys的工作打破了以往CNN训练需要GT等一系列界限,完成的是各种风格的迁移,因此成为神经网络风格迁移这一领域的开山之作。
随后研究人员又基于Gatys的工作做了一系列的改进,无论是学术界还是工业界,本文旨在将NST的相关发展做一个综述(DDL到2018年3月)。主要工作有以下3方面
(1)总结NST相关算法
(2)提出不同NST算法之间的一些评价方法/评价指标
(3)总结NST领域存在的挑战及未来可探索的方向
Section II回顾了非真实性渲染的相关内容;
Section III介绍了NST的相关基础;
Section IV分类总结NST算法;
Section V是基础算法相关的一些改进;
Section VI介绍了NST相关的评价指标;
Section VII是NST的相关应用;
Section VIII是NST面临的挑战,最后Section VIIII总结全文。
Section II Non-Photorealistic Rendering 艺术风格化有光感的应用场景,也是一直以来的一个研究领域,在CNN出现前主要通过NPR完成,对于二D图像主要是基于图像的艺术渲染(image-based artictic rendering,IB-AR),有以下分类:
Stroke-Based Redenring:通过设置不同的虚拟stroke来将照片匹配到固定风格上,缺点就是stroke只为某一种风格设计,灵活性较差。
Region based technique:区域渲染法会先将图片分割成不同区域,不同语义区域内使用不同的stroke进行渲染;region based的限制在于单一区域无法完成任意艺术风格的渲染。
Example-baed Rendering:example-based方法基于图像对进行图像类比,通过监督学习原图像与目标风格图像的图像对完成风格变换,这样适合于多种艺术风格;但实际应用中成对的训练数据往往不好获取,以及提取的通常是图像低级特征,不能有效提取到内容或风格信息,限制了实际性能
Image Processed and Filtering:使用不同的filtering也可以完成图像的渲染,但只能完成有限的一些风格。
基于以上讨论可以看出虽然无需CNN辅助的IB-AR算法可以完成艺术渲染,但在灵活性、风格多样性、特征提取有效性上有诸多限制,为了解决以上问题,提出Neural Style Transfer。
Section III Basics of Style Transfer
为了更好的了解NST的发展,有必要介绍一下NST的起源,为了能够自动化完成风格迁移,重中之重是如何建模以及从图片中提取风格信息。因为风格和纹理特征关联紧密,因此退回到纹理识别上来获取风格表彰;接下来的问题是如何保留图像内容的基础上重建至目标风格,需要Image Reconstruction。
Part A Visual Texture Modeling
如何进行纹理合成需要图像纹理建模,有两种方式:基于统计分布的参数化纹理建模(Parametric Texture Modelling with Summary Statistics)和基于马尔科夫随机场的非参数化纹理建模(Non-parametric Texture Modelling with Markov Random Fields)
Parametric Texture Modelling with Summary Statistics:最先由Jules提出,将图像的纹理特征看做像素点的N阶统计量,而Gatys则首次用CNN来建模,通过计算Gram矩阵来表征纹理模型,编码的是二阶信息
通过CNN提取的信息进行GramMatrix计算可以完成自然或非自然纹理特征的建模,然而Gram计算的是全局的一种布局而不利于捕获长程依赖的对称关系,也有学者针对此问题进行了改进,将feature map在水平和垂直方向上都进行delta的翻转来解决对称这一问题。
Non-parametric Texture Modelling with MRFs:非参数建模则认为纹理图像中像素值与其近邻相关,基于以上假设Leung提出来了通过搜索近邻像素值为原图中像素点赋值。
Part B Image Reconstruction
许多视觉任务中需要从输入图像中提取抽象特征,图像重建与此相反,探究的是如何根据提取的特征复原输入图像,因此就需要理解提取到的抽象特征包含哪些内容和信息。基于CNN提取到的特征进行图像复原的算法主要有:
Image Optimization Based On-line Image Reconstruction(IOB-IR)和
Model-Optimization Based Offline Reconstruction(MOB-IR)。
IOB-IR会迭代优化整张图直至产生的特征表达与原始的特征表达相近,但这种方法在复原较大图像时耗费时间较久;
MOB-IR会提前训练好前馈网络然后把计算放在训练阶段,测试阶段完成reverse从而提升了效率,还可以结合GAN提升性能。
Section IV Neural Style Transfer Algorithm
Neural Style Transfer是前述IB-AR方法中的一种,本章主要分类介绍2D图像相关的风格迁移算法、算法的特点、局限性。
风格迁移一个很大的不确定性在于“风格”的定义,如何评估一个算法进行的风格迁移是否成功,更关注于细节?语义信息?等都会影响到算法的评估。
本文将NST算法分为IOB-NST和MOB-NST两类,
IOB-NST:通过迭代优化图像完成风格迁移[慢速];
MOB-NST:通过线下优化生成模型[快速],仅通过一次前馈过程完成风格图像的生成。详情参见Fig2。Part A IOB-NST
Deepdream为IOB-NST相关研究奠定了基础,IOB-IR的基本思路是首先提取风格图像和内容图像的特征,将二者结合获得目标特征描述;随后迭代优化重建后的图片。IOB-NST的局限性在于迭代优化导致的高昂计算成本。
** 1.Parametric Neural Methods with Summary Statistics
Gatys**
通过VGG-19中间层提取到的特征进行图像的重迁移,属于基于统计分布的参数化图像迁移算法,通过优化内容损失函数和风格损失函数使得最终重建的图像兼具二者的特征。通过调节alpha和beta权重因子还可以调节侧重点是更注重内容还是风格。
在风格迁移过程中对于content和style的层次选择十分重要,选择不同层、每层中的不同数目filter都会对最终结果有很大的影响。在Gatys的工作中,style选取了{relu1_1,relu12_1,relu3_1,relu4_1,relu5_1},可以看到在风格内容选取了多层次的信息,这是Gatys工作成功的关键,使得最终的风格更加平滑、连续;content选取了较高层次的relu4_2,而不是低层次信息,往往包含许多细节,但为了风格上贴近有时候需要修改具体content的内容。
Gatys的算法实现训练时并不需要ground truth也没有太多风格图像类型的约束,与之前的IB-AR算法形成了鲜明对比。
但是Gatys的算法仍有一定局限性,没能很好的保留图片的细节信息,因为CNN不可避免的丢弃了一些底层信息,而Gram Matrix作为特征表述也不适于真实渲染,还没有考虑内容图片中的语义信息等,这些都是影响呈现效果的重要因素。
除了Gram Matrix,还有其他纹理表征的方法,如Domain Adaption。域迁移的训练和测试数据常分属于不同分布,通过对源域有标签数据的学习,对目标域无标签数据进行预测,通过最小化Maximum Mean Discrepancy(MMD)使得目标域与源域的数据分布建立起一种映射关系。
在NST中则是最小化风格图和重构图两个域的MMD,使得重建图的特征分布尽可能与风格图的分布相近,从而达到风格迁移的效果。但GramMatrix的局限性在于训练的不稳定性,需要仔细繁琐的调参,因为有学者发现对于不同的特征**仍可能有相同的Gram矩阵,因此Risser等人提出根据特征的直方图统计来进行优化。
通过匹配特征**的直方图可以使得训练更稳定,迭代次数也减少了,代价就是进一步增加了计算开销,此外Gatys算法中未考虑深度、细节的问题也没有改善。
上述基于CNN的算法不可避免丢失了细节信息,有时会导致图像或结构的失真,有学者引入额外的约束保留保留低层次信息,这样在风格迁移的同时可以更好的保留原图细节。
2.Non-parametric Neural Methods with MRFs
基于MRFs的非参数方法通过切patch并匹配的方法完成风格转移,通过将重建图切patch,对每一个patch进行优化和逼近,这样可以更好的保留局部细节信息。此类算法更适于content和style相似的情况。
明天继续