Deep Feature Interpolation for Image Content Changes

这篇博客是对《Deep Feature Interpolation for Image Content Changes》的通俗解读，这篇发表时间较早，但是文章的理念即使在今年2020年来看的话都很有借鉴意义。

文章链接：https://arxiv.org/pdf/1611.05507.pdf

摘要：

文章中提出了DFI（deep feature interpolation）,顾名思义就是对特征进行线性插值来实现复杂的属性转换任务，如：年轻化、老化等等。思路简单，就是通过对提取的图像特征进行插值，甚至提取特征的网络都不用专门去设计，使用常规的卷积神经网络就能实现，效果还不俗。

介绍

常规的背景介绍，目前的发展现状等等，同时不忘cue一下生成对抗网络（讲道理，这篇文章发表的时候，GAN网络提出也没多长时间），这篇文章中作者另辟蹊径，通过深度空间的线性插值解决其中的大量问题，而且不需要专门的网络结构。

Deep Feature Interpolation for Image Content Changes

线性插值如何有效？在像素空间中，自然图像位于（近似于）非线性流形上。非线性流行时局部欧几里得的，但是整体是弯曲的且非欧几里得的。众所周知，在像素空间的插值会造成重影和伪影（一种背离基础流形的迹象），并且图像类别之间的线性分类器的效果很差。

还有众所周知，深度卷积神经网络在分类任务上表现出色，同时依赖于末端的简单线性层进行分类。由于网络将图像映射到新的表示形式上，在新的表示形式中，图像类别可以线性分离。同时在足够多的对象识别类上训练的神经网络，可以学习到通用的特征空间，并且可以作为其他类别分类器训练的特征提取器。Bengio假设了卷积将自然图像的流形线性化为一个（全局）深度特征的欧几里得子空间。

也就是基于此，图像编辑任务也变得可行。文章中提出了一个框架，这个框架支撑一个概念，在A属性和非A属性两个类别上，通过在特征空间插值，可以获得A属性的任意状态，进而实现图像编辑的任务，提出了DFI。

DFI使用的条件是图像需要首先对齐，另外两个分类的样本要尽量相似（这块可以类比为:在黑人训练集上获得模型，用白人数据来进行推理，那效果肯定不好的嘛）。DFI特点：简单、快、通用、效果好（这个是文章作者的总结，哈哈哈）。

Deep Feature Interpolation for Image Content Changes

深度特征插值

以添加胡子属性为例，首先要有两个属性数据集，分别是有胡子St和没有胡子Ss。使用在足够丰富的对象分类任务上进行过训练的预训练卷积网络，如ImageNet上训练的VGG，建立图像——>特征的映射关系。

深度特征插值可以概括为四个步骤：

1、使用卷积神经网络将St和Ss映射到深度特征表示中；

2、计算两个属性特征的平均值，并将差值定义为属性向量（这块应该可以优化）：

Deep Feature Interpolation for Image Content Changes

3、将测试图像映射到特征空间，沿着属性轴进行移动。

4、通过求解反向映射来重建变换后的输出图像z

Deep Feature Interpolation for Image Content Changes

前三个步骤都是平淡无奇，这里最想讲的是第四个步骤—反向映射。

DFI的最后一步是将向量 Deep Feature Interpolation for Image Content Changes 反向映射回像素空间，以获得输出图像z。直观点：z是映射到特征空间时对应于的图像。尽管不存在用于VGG映射的闭式逆函数，但是文章中通过采用【28】的方法获得了彩色图像，并且找到具有梯度下将的z: