13、【李宏毅机器学习（2017）】Unsupervised Learning: Linear Dimension Reduction（无监督学习：线性降维）

在前面的博客中介绍了监督学习和半监督学习，本篇博客将开始介绍无监督学习。

无监督学习介绍
- 监督学习、半监督学习、无监督学习
- 无监督学习的用处
聚类（Clustering）
- K均值聚类
- Hierarchical Agglomerative Clustering (HAC)
降维（ Dimension Reduction）
- Feature selection
- Principle Component Analysis (PCA)
Matrix Factorization

无监督学习介绍

监督学习、半监督学习、无监督学习

监督学习中的样本 ${(x^{r}, {\hat{y}}^{r})}_{r = 1}^{R}$ 中的 $\hat{y}$ 是已知的，所以监督学习算法可以在训练集数据中充分使用数据的信息
半监督学习的样本 ${(x^{r}, {\hat{y}}^{r})}_{r = 1}^{R}, {x^{u}}_{u = R}^{R + U}$ 中只有R个样本的 $\hat{y}$ 是已知，U个样本的 $\hat{y}$ 未知，且通常U远大于R
– Transductive learning ：将未知标签的数据作为测试集数据（用了未知标签的数据的feature）
– Inductive learning：未知标签的数据不作为测试集数据
无监督学习的样本 ${x^{r}}_{r = 1}^{R}$ 中的 $\hat{y}$ 都是未知的

无监督学习的用处

聚类（Clustering）和降维（ Dimension Reduction）
Generation

聚类（Clustering）

K均值聚类

将样本 $X = {x^{1}, x^{2} \dots x^{N}}$ 聚合成K个类
初始化类中心 $c^{i}$ ， $i = 1, 2, \dots K$
重复
– 利用 $c^{i}$ 将样本分为K各类
– 利用分好的K个类中的样本重新算出每一个类的 $c^{i}$

Hierarchical Agglomerative Clustering (HAC)

假设有5个样本，计算两两之间的相似度，将最相似的两个样本聚合在一起（比如第一个和第二个），再将剩下的4个聚合在一起，以此类推。
13、【李宏毅机器学习（2017）】Unsupervised Learning: Linear Dimension Reduction（无监督学习：线性降维）

降维（ Dimension Reduction）

Feature selection

直接按照特征的分布来选取有分布的特征。

Principle Component Analysis (PCA)

PCA介绍

现在举一个从二维数据降到一维的情况， $w^{1} x$ 表示 $x$ 在 $w$ 向量上的投影，我们希望找到 $w$ 使得样本投影在这一向量上的点的分布方差最大，如图，我们选择Large variance这一向量。
13、【李宏毅机器学习（2017）】Unsupervised Learning: Linear Dimension Reduction（无监督学习：线性降维）

现在考虑高维的情况，此时同样的思路也是找到相互垂直的 $w^{1}, w^{2} \dots w^{K}$ ，使得 $z^{1}, z^{2} \dots z^{K}$ 分布方差最大。
13、【李宏毅机器学习（2017）】Unsupervised Learning: Linear Dimension Reduction（无监督学习：线性降维）

W求解

接下来推导如何计算 $w$ ，先计算 $w^{1}$ ：

13、【李宏毅机器学习（2017）】Unsupervised Learning: Linear Dimension Reduction（无监督学习：线性降维）

接下来计算 $w^{2}$ ，同样也是极大化 $(w^{2})^{T} S w^{2}$ ：
13、【李宏毅机器学习（2017）】Unsupervised Learning: Linear Dimension Reduction（无监督学习：线性降维）

PCA-decorrelation

降维之后的 $z$ 之间彼此是互相垂直的（ $c o v (z)$ 是一个对角矩阵），由此得出的结果再作为其他模型的输入，可以大大减少模型的参数。
13、【李宏毅机器学习（2017）】Unsupervised Learning: Linear Dimension Reduction（无监督学习：线性降维）

PCA-NN

PCA可以看作是一个一层的神经网络，我们现在找到了 $w^{1}, w^{2} \dots w^{K}$ ，图中 $\hat{x}$ 表示误差，则可以表示为图中的神经网络（3维降为2维）。
13、【李宏毅机器学习（2017）】Unsupervised Learning: Linear Dimension Reduction（无监督学习：线性降维）

直接用Gradient Descent训练出来的w和PCA中的不一样，因为PCA中的w一定是垂直的，Gradient Descent训练出来的w不一定

Matrix Factorization

现在假设有两种object，它们之间是受到共同的factor的影响，举个例子，现在假设有 $A$ 、 $B$ 、 $C$ 、 $D$ 和 $E$ 五个人，有 1、2、3和4四种手办，可以直观地看到购买手办1多的人倾向于购买更多的手办2 ，购买手办13多的人倾向于购买更多的手办4 ，因此二者之间存在这隐藏的关系（萌、呆），属性相同的人和手办相互match（推荐系统！！！），越match二者的latent factor内积越大（如 $r^{A} r^{1} \approx 5$ ）。
13、【李宏毅机器学习（2017）】Unsupervised Learning: Linear Dimension Reduction（无监督学习：线性降维）

现在考虑更复杂的情况，假设A所在的地区就没有发行手办3，那么此时应该用？表示，此时应如下图，利用梯度下降算法最小化 $L$ 。
13、【李宏毅机器学习（2017）】Unsupervised Learning: Linear Dimension Reduction（无监督学习：线性降维）

最终计算出 $A$ 、 $B$ 、 $C$ 、 $D$ 和 $E$ 五个人与1 、2、3和4四种手办的共同属性，并且可以由此计算出？值。
13、【李宏毅机器学习（2017）】Unsupervised Learning: Linear Dimension Reduction（无监督学习：线性降维）

现在考虑更精致的模型，考虑其他独立的因素对手办购买的影响，比如 $r^{A} r^{1} + b_{A} + b_{1} \approx 5$ （除了潜在因子 $r^{A}, r^{1}$ 还考虑了 $A$ 这个人购买手办的意愿 $b_{A}$ 与手办1吸引人购买的能力 $b_{1}$ ），最小化新的 $L$ 。
13、【李宏毅机器学习（2017）】Unsupervised Learning: Linear Dimension Reduction（无监督学习：线性降维）