Style transfer with adaptation to the central objects of the scene

摘要：

风格转换是一个将具有某种内容的图像以另一种图像的风格呈现的问题，例如，以某位著名画家的绘画风格的全家福。经典风格转换算法的缺点是，它会在内容图像的所有部分上均匀地施加风格，这会扰乱内容图像上的中心对象，例如人脸或文字，并使它们无法识别。这项工作提出了一种新颖的风格转换算法，该算法可以自动检测内容图像上的中心对象，生成空间重要性mask并不均匀地施加风格：对中心对象进行较少的风格化以保留其可识别性，并且像往常一样对图像的其他部分进行样式化以保留样式。提出了三种自动检测中心物体的方法，并通过用户评估研究对它们进行了定性评估。与传统的样式转移方法相比，这两种比较均显示出更高的造型质量。

1. 引言：
Style transfer with adaptation to the central objects of the scene
        图像风格化[1]是计算机视觉中将具有某种内容的图像以另一种图像的风格呈现的一个经典问题，如图1所示。以前的方法使用硬编码规则来施加预定义风格。最近，Gatys等人的方法[2]。提出使用深度卷积网络在任意内容图像上施加任意风格。
        主要任务是将风格从一个图像转换到另一个图像。该算法应适用于具有任何内容和风格图像。 2016年，Leon Gatys提出了一种基于深度神经网络的风格化方法[2]，从而解决了这一问题。主要思想是在图像空间中进行优化，以找到从内容图像和风格图像的样式语义上反映内容的图片。通过最大限度地减少内容损失和样式损失来调节这两个相互矛盾的目标：
Style transfer with adaptation to the central objects of the scene 系数α决定了风格化的强度（图2.a）。较小的α表示更多风格，反之亦然。这种方法的缺点是将样式均匀地施加到整个内容图像上，从而扭曲了图像的重要中心对象，这对于感知至关重要。例如，很难说什么鸟坐在树上（图2b），因为在风格化过程中会丢失鸟剪影的细微细节。
Style transfer with adaptation to the central objects of the scene
        通过增加（1）中的α系数，可以改善内容的保存性。但是，此解决方案总体上会降低风格化强度，从而降低了表现力的风格化。
        本文提出了解决该问题的新方法。首先，使用自动生成的内容图像空间重要性mask来检测和选择中心对象。接下来，使用此mask在重要性mask的控制下，以空间变化的强度施加风格。这样可以实现两个相互矛盾的目标：1.在图像的中心对象上进行柔和的风格化，这对于感知至关重要，例如人脸，房屋，汽车等。2.在图像的其余部分，强烈风格化，从而表现出生动的样风格。
        本文的结构如下。第2节描述了所提出的方法，并与Gatys等人的基线风格化方法进行了定性比较。第3节提供了用户评估研究的详细信息，并总结了其结果，突出了所提出解决方案的优越性。第四节总结。
2. 方法：
2.1非均匀风格化：
        考虑优化问题（1）中的损失函数。在原始论文[2]中，内容损失的形式如下：
Style transfer with adaptation to the central objects of the scene
        其中和是预训练卷积神经网络[3]的内部表示，该网络被选择为VGG [4]。为替代常数α，我们建议对每个空间位置（i,j）使用具有不同值的矩阵：

        设置变量α可以在场景的中心对象上施加较少的风格，这对于感知至关重要，而在图像的所有其他区域中施加更多的风格。
2.2自动中心对象检测：
        考虑对图像分类进行预训练的卷积神经网络。我们使用VGG [4]。这种模型获取输入图像，并从ImageNet集中为每个类别输出概率分布。我们通过用均匀的颜色填充输入图像的不同部分并测量输出类别概率的变化来检测中心对象。如果图像的关键对象被填充，人们将观察到类别概率的急剧变化。相反，如果背景发生变化，则分类概率仅会稍有变化。总体而言，类别概率的变化幅度决定了填充区域的重要性。这种方法用于可视化分类问题中的卷积神经网络[5]，但就风格转换问题而言，据我们所知，它是首次使用。在将整个图像划分为一组区域并逐个填充每个区域并评估其重要性之后，我们构建了一个整体重要性图αij，用于测量图像每个位置的语义重要性。该重要性图被传递给具有修改后的内容损失函数（3）的空间变化样式转换算法（1）。
Style transfer with adaptation to the central objects of the scene Patch-Based Mask Generation    在这种方法中，我们提出将图像划分为均匀的块状网格（如图3.b所示）。依次覆盖网格块并通过神经网络传递图像，我们通过计算类分布差异的L2范数来评估网格块的重要性。结果的可视化表明，提出的算法可以找到场景的中心对象并将其与背景分离（图4.a）。之后，我们在风格化化算法中使用发现的αi; j矩阵，改变了内容损失（3）。在图4（b和c）中，我们可以看到基准线方法与所提出的模型之间的差异。狗的脸部有许多小细节无法用基线方法保存，但可以保存在新模型中。
Style transfer with adaptation to the central objects of the scene
        在上面的示例中（图4.a），我们发现主网格块不仅覆盖了中心对象，而且还覆盖了背景。除了使用固定网格块之外，我们还建议对网格的不同位置使用先前的算法，并通过逐像素平均将结果组合在一起（图5a）。我们在图5（b和c）中看到了两种方法之间的差异。平均不同矩阵可以使权重分布更加平滑，因此可以更好地定义中心对象的边界。
Superpixel-Based Mask Generation  在上面的示例（图5）中，我们看到对不同的αi; j矩阵求平均值会产生椭圆形式的边界。如果中心对象具有更复杂的边界，则所提的方法将变得不合适。为了改善结果，不使用均匀的网格，而是将图像拆分为超像素[6]。该算法将图像分成小段（超像素），其边界接近图像中对象的边界（图6a）。超像素算法有两个主要参数，分别负责段数和边界形状。我们选择这些参数的一组预定义值，并多次运行重要性掩码评估算法，然后对结果取平均值以获得更好的质量（图6b）。
Style transfer with adaptation to the central objects of the scene
        图7显示了统一风格（a）和基于块的风格（b）和基于超像素的风格（c）的空间变化风格之间的质量差异。中心对象玻璃的边界是非凸的，因此基于超像素的边界可以更好地提取该对象的边界，从而提高了最终样式化的质量。
Segmentation-Based Mask Generation  深度学习模型擅长图像分割任务[7]。因此，我们可以通过先前的方法评估αi; j矩阵，然后通过分割算法的结果校正边界。当对象与背景容易分离时，这种方法可以提高样式化的质量。图中的示例。如图8所示，具有分割的风格化算法将汽车精确地沿汽车的边界定位，而超像素算法会影响汽车附近的一些像素，这使得最终样式沿图像中心对象的边界转移的清晰度降低。
Style transfer with adaptation to the central objects of the scene
4.结论：

在这项工作中，提出了一种新的具有空间变换强度的风格转移方法。通过自动生成的重要性mask来控制每个像素的风格化化强度。提出了基于块，基于分割和基于超像素的三种方法来生成重要性mask。定性比较和进行的用户评估研究表明，与Gatys等人的经典样式转换方法相比，该方法具有优越性。由于背景具有表现力的样式传递，而内容图像的中心对象具有更柔和的样式传递。在三种重要的重要性mask生成方法中，基于分割的显示出最高的质量，这可能归因于图像中心对象的更准确的边界估计。