FM用于CTR预估 - 爱码网

参考：https://tech.meituan.com/2016/03/03/deep-understanding-of-ffm-principles-and-practices.html

《推荐系统算法实践》P115

FM常用于CTR预估，其可以看成是对逻辑回归的优化，使得逻辑回归也可以用机器来做特征工程。

其主要目标是在数据稀疏的情况下，用模型来做特征交叉。（特征交叉可以发掘特征之间的关联性）目标解读：我们假设一个场景：数据包含用户id，性别，年龄，地区特征来预测对口红的点击率。如果性别为女而且年轻，那么他对口红的点击率应该高，这说明性别和年龄有关联，需要在多项式后，加一项（系数ax1x2），这就是特征交叉，让模型把这个当成新的特征，理解为年轻女性，那么这项系数应该是比较大的。但是现实中的数据可能年轻女性比较少，只有当女性和年轻两个特征都为1的数据才能用来训练系数a，数据过少导致系数a的值不精确。这就是人工特征+LR的不足之处。FM来解决这个问题。

FM用于CTR预估

上图为人工特征工程+LR的公式，其中的wij为W矩阵的一项，W矩阵记录了所有特征之间的交叉系数。我们将W矩阵分解，得到的向量点击后就可以复原W矩阵中的任何一项。变成下式：

FM用于CTR预估

由于矩阵分解，需要学习的参数就大大下降了。而且解决了数据稀疏的问题。

那么这里的Vi就是第i个特征的隐向量，每个特征都要一个自己的隐向量，这个是通过矩阵分解得到的，而且这个向量可以是多维度*多维度的，像下图：

FM用于CTR预估