FM系列—DeepFFM结构详解

通过FM系列—FM+FFM详解我们知道：FM通过对于每一维特征的隐变量内积来提取特征组合。虽然理论上来讲FM可以对高阶特征组合进行建模，但实际上因为计算复杂度的原因一般都只用到了二阶特征组合。那么对于高阶的特征组合，则通过多层的神经网络即DNN去解决。

背景

DeepFM模型包含FM和DNN两部分，FM模型可以抽取low-order特征，DNN可以抽取high-order特征。

在CTR中，通常将特征转为one-hot的形式，但如果将这些特征输入到DNN中，会导致网络参数太多，如下图所示：

FM系列—DeepFFM结构详解

为了解决这个问题，我们借鉴FFM的思想，将特征分为不同的field：
FM系列—DeepFFM结构详解

再加两层的全链接层，让Dense Vector进行组合，那么高阶特征的组合就出来了

FM系列—DeepFFM结构详解

但是低阶和高阶特征组合隐含地体现在隐藏层中，如果我们希望把低阶特征组合单独建模，然后融合高阶特征组合。

FM系列—DeepFFM结构详解

即将DNN与FM进行一个合理的融合：

FM系列—DeepFFM结构详解

二者的融合总的来说有两种形式，一是串行结构，二是并行结构：

FM系列—DeepFFM结构详解

这样就实现了：DeepFM模型包含FM和DNN两部分，FM模型可以抽取low-order特征，DNN可以抽取high-order特征。

DeepFM模型

DeepFM的模型结构如下：

FM系列—DeepFFM结构详解

DeepFM包含两部分：神经网络部分与因子分解机部分，分别负责低阶特征的提取和高阶特征的提取。这两部分共享同样的输入。DeepFM的预测结果可以写为：
$\hat y = sigmoid(y_{FM} + y_{DNN})$

FM部分详细结构

结构图如下：

FM系列—DeepFFM结构详解

FM部分是一个因子分解机。因为引入了隐变量的原因，对于几乎不出现或者很少出现的隐变量，FM也可以很好的学习。
${y_{FM}}=w_0+\sum_{i=1}^n{w_ix_i}+\sum_i^n{\sum_{j=i+1}^n{<v_i,v_j>x_ix_j}}\\ <v_i,v_j>=\sum_{f=1}^k{v_{if}v_{jf}}$

深度部分详细结构图

FM系列—DeepFFM结构详解

深度部分是一个前馈神经网络。与图像或者语音这类输入不同，图像语音的输入一般是连续而且密集的，然而用于CTR的输入一般是及其稀疏的。因此需要重新设计网络结构。具体实现中为，在第一层隐含层之前，引入一个嵌入层来完成将输入向量压缩到低维稠密向量。

FM系列—DeepFFM结构详解

嵌入层(embedding layer)的结构如上图所示。当前网络结构有两个有趣的特性，1）尽管不同field的输入长度不同，但是embedding之后向量的长度均为K。2)在FM里得到的隐变量Vik现在作为了嵌入层网络的权重。

这里的第二点如何理解呢，假设我们的k=5，首先，对于输入的一条记录，同一个field 只有一个位置是1，那么在由输入得到dense vector的过程中，输入层只有一个神经元起作用，得到的dense vector其实就是输入层到embedding层该神经元相连的五条线的权重，即vi1，vi2，vi3，vi4，vi5。这五个值组合起来就是我们在FM中所提到的Vi。在FM部分和DNN部分，这一块是共享权重的，对同一个特征来说，得到的Vi是相同的。