Arbitrary Style Transfer with Deep Feature Reshuffle

Shuyang Gu, Congliang Chen, Jing Liao, Lu Yuan
University of Science and Technology of China, Peking University, Microsoft Research
https://arxiv.org/pdf/1805.04103v1.pdf

图像合成

图像合成主要分为parametric和non-parametric两种方法，这里主要讨论neural image synthesis。
parametric方法从一张噪声图像 $x$ 开始，对 $x$ 不断进行优化，使得 $x$ 的统计量（如Gram矩阵、均值方差、直方图等）与内容图像和风格图像匹配，如Neural Style。该方法能够较好地保留内容图像的结构和风格图像的整体观感，但是在局部区域会有较大程度的没有语义信息的变形，况且想找到这么一个合适的统计量也并非易事。
non-parametric通过贪心搜索内容图像中与风格图像相似的patch进行替换使内容图像的风格与目标图像相似。该方法避免了parametric方法中的问题，但是生成的图像在风格模式上不够丰富，看起来有一种washed-out的感觉。如下图所示
Arbitrary Style Transfer with Deep Feature Reshuffle

arbitrary style transfer: 在特征空间使内容图像特征的统计量匹配风格图像的，然后通过解码器生成出来。
本文的目的就是要融合两种方法，取长补短。基本思路是从non-parametric方法出发，引入parametric方法中使用的图像全局约束。采用的方法是feature reshuffle，即在空域对图像特征进行重排。可以证明，reshuffle之后的图像特征的Gram矩阵保持不变，保证生成的图像和风格图像的整体一致性（parametric方法的优势），并且一些特定的reshuffle方法有助于内容图像和内容图像局部语义信息的匹配（non-parametric方法的优势）。

reshuffle

Neural Style
$min L_{t o t a l} = α L_{c o n t} + (1 - α) L_{s t y l e}, L_{c o n t} = ‖ F_{o} - F_{c} ‖_{F}^{2}, L_{s t y l e} = ‖ G_{o} - G_{s} ‖_{F}^{2}$
Non-parametric
$min L_{t o t a l} = α L_{c o n t} + (1 - α) L_{m a t c h}, L_{m a t c h} = \sum_{p} ‖ Ψ (F_{o}) - Ψ_{N N (p)} (F_{s}) ‖_{F}^{2}$
本文的目标
$min {L_{c o n t}, L_{s t y l e}, L_{m a t c h}}$
图像特征的reshuffle实际上就是从 $S = {0, . . ., M - 1} \times {0, . . ., N - 1}$ 到自身的一个映射 $T$ 。设原特征为 $F (x)$ ，则shuffle后的特征为 $F (T (x))$ 。
可以证明，对于后两个目标而言，feature reshuffle可以保证 $L_{s t y l e} = 0$ ，在patch大小为1时还可以保证 $L_{m a t c h} = 0$ ，这样只需考虑选取合适的shuffle方式，并使得 $L_{c o n t}$ 尽可能小即可。

方法

$min L_{t o t a l} = α L_{c o n t} + (1 - α) L_{s h u f f l e}, L_{s h u f f l e} = \sum_{p} ‖ Ψ (F_{o}) - Ψ_{N N C (p)} (F_{s}) ‖_{F}^{2}$
$N N C (p)$ 表示带约束条件的最近邻patch，而 $L_{s h u f f l e}$ 的优化目标是使得风格图像中的patch尽可能均衡地被使用
进行逐层优化，到第二层时用图像特征通过解码器解码出图像