局部线性嵌入LLE

[1]https://www.cnblogs.com/pinard/p/6266408.html
[2]Graph Embedding Techniques, Applications, and Performance: A Survey
主要参考和图片来源[1]

局部线性嵌入(Locally Linear Embedding,LLE)，一种重要降维方法，与PCA、LDA相比，更注重保持样本局部线性特征，常用语图像识别、高维数据可视化等。

数学意义上的流形：一个不闭合曲面，曲面上数据分布均匀，特征比较稠密，流形降维就是把流形从高维到低维的降维过程，并在降维中保留流形高维的特征。
局部线性嵌入LLE

我的理解：数据分布于高维的一个曲面，流行学习就是将这个曲面降维展开表达出来

局部线性嵌入LLE

LLE
LLE假设数据在较小的局部是线性的，即样本 $x_{1}$ 可以由K个近邻样本 $x_{2}, x_{3}, x_{4}$ 线性表示

x_{1} = w_{12} x_{2} + w_{13} x_{3} + w_{14} x_{4}

则希望降维之后依然保持这种线性关系

x_{1}^{'} \approx w_{12} x_{2}^{'} + w_{13} x_{3}^{'} + w_{14} x_{4}^{'}

由于只考虑了局部线性关系，所以复杂度低很多

首先设定邻域大小k，然后寻找某个样本与近邻样本的线性关系，即权重系数。
假设有m个n维样本 ${x_{1}, x_{2}, . . ., x_{m}}$ ，则有损失函数

J (w) = \sum_{i = 1}^{m} ‖ x_{i} - \sum_{j = 1}^{k} w_{i j} x_{j} ‖_{2}^{2}

对权重系数有归一化限制

\sum_{j = 1}^{k} w_{i j} = 1

对损失函数矩阵化

\begin{aligned} J (W) & = \sum_{i = 1}^{m} ‖ x_{i} - \sum_{j = 1}^{k} w_{i j} x_{j} ‖_{2}^{2} \\ = \sum_{i = 1}^{m} ‖ \sum_{j = 1}^{k} w_{i j} x_{i} - \sum_{j = 1}^{k} w_{i j} x_{j} ‖_{2}^{2} \\ = \sum_{i = 1}^{m} ‖ \sum_{j = 1}^{k} w_{i j} (x_{i} - x_{j}) ‖_{2}^{2} \\ = \sum_{i = 1}^{m} W_{i}^{T} (x_{i} - x_{j})^{T} (x_{i} - x_{j}) W_{i} \end{aligned}

其中 $W_{i} = (w_{i 1}, w_{i 2}, . . ., w_{i k})^{T}$
表示局部协方差 $Z_{i} = (x_{i} - x_{j})^{T} (x_{i} - x_{j})$
则简化为

J (W) = \sum_{i = 1}^{m} W_{i}^{T} Z_{i} W_{i}

对约束有

\sum_{j = 1}^{k} w_{i j} = W_{i}^{T} 1_{k} = 1

其中1k为k维全1向量

则拉格朗日乘子法：

L (W) = \sum_{i = 1}^{m} W_{i}^{T} Z_{i} W_{i} + λ (W_{i}^{T} 1_{k} - 1)

对W求导取0得

2 Z_{i} W_{i} + λ 1_{k} = 0

则

W_{i} = λ^{'} Z_{i}^{- 1} 1_{k} λ^{'} = - \frac{1}{2} λ

利用约束做归一化有

W_{i} = \frac{Z_{i}^{- 1} 1_{k}}{1_{k}^{T} Z_{i}^{- 1} 1_{k}}

注：把 $1_{k}^{T} 挪到左边就对上了。。。$

至此，获得高维的权重系数，希望权重系数保持。设定n维样本集 ${x_{1}, x_{2}, . . ., x_{m}}$ 在低维的d维度投影为 ${y_{1}, y_{2}, . . ., y_{m}}$ ，希望保持线性关系且均方差损失函数最小，则最小化损失函数

$J (y) = \sum_{i = 1}^{m} ‖ y_{i} - \sum_{j = 1}^{k} w_{i j} y_{j} ‖_{2}^{2}$
区别在于高维的时候是求权重系数W，低维时是求低位数据Y

为了得到标准化低维数据，加入约束条件

$\sum_{i = 1}^{m} y_{i} = 0; \frac{1}{m} \sum_{i = 1}^{m} y_{i} y_{i}^{T} = I$

将目标损失函数矩阵化

\begin{aligned} J (Y) & = \sum_{i = 1}^{m} ‖ y_{i} - \sum_{j = 1}^{k} w_{i j} y_{j} ‖_{2}^{2} \\ = \sum_{i = 1}^{m} ‖ Y I_{i} - Y W_{i} ‖_{2}^{2} \\ = t r (Y^{T} (I - W)^{T} (I - W) Y) \end{aligned}

令

M = (I - W)^{T} (I - W)

，则最小化

J (Y) = t r (Y^{T} M Y)

，约束函数矩阵化为

Y^{T} Y = m I

通过拉格朗日函数得到

L (Y) = t r (Y^{T} M Y) + λ (Y^{T} Y - m I)

求导取0得到

2 M Y + 2 λ Y = 0

则求出矩阵M的最小的d个特征值所对应的d个特征向量组成矩阵

Y = (y_{1}, y_{2}, . . ., y_{d})

注，一般最小的特征值为0不能反映数据特征，因此取[1,d+1]小的特征值的特征向量。(这里因为最小化目标，所以取小的特征值)

总结一波流程：K近邻=>算权重系数=>算降维后的矩阵
局部线性嵌入LLE

LLE算法的主要优点有：
1）可以学习任意维的局部线性的低维流形
2）算法归结为稀疏矩阵特征分解，计算复杂度相对较小，实现容易。
LLE算法的主要缺点有：
1）算法所学习的流形只能是不闭合的，且样本集是稠密均匀的。
2）算法对最近邻样本数的选择敏感，不同的最近邻数对最后的降维结果有很大影响。