机器学习-Ng-week8-聚类和降维

一、聚类

（1）无监督学习

聚类是我们第一个介绍的无监督学习算法，没有给计算机提供标签，我们拿到的数据是没有标签的。之前我们的正负样本都是根据颜色的不同区分，或者多个类的时候，我们的样本的样式是不一样的，下图是无监督学习的样本：

很显然，这些数据都是不存在标签y的。在非监督学习中，我们需要乙烯类的无标签的训练数据，输入到一个算法中，然后我们告诉我们这个算法找找这个数据的内在结构，比如说上图吧，分成两个分开的点集（称为簇）。

聚类算法用于下面的情况：

比如说市场分割，针对不同类型的客户分别推销不同的销售产品或者分别提供更合适的服务；或者是用于社交网络；或者适用于计算机集群组织，或者更好的管理数据中心。如果你知道在这个数据中心里面，那些计算机经常协同工作，那么你可以重新的分配资源，重新布局网络。

（2）k-均值-最普及的聚类算法

算法接受一个未标记的数据集，然后将数据聚类成不同的组。k-均值是一个迭代算法，假设我们想要将数据聚类成n个组，其方法为：

step1：选择k个随机的点，称为聚类中心（cluster centroids）；

step2：对于数据集的每一个数据，按照距离k个中心点的距离，将其与距离最近的中心点关联起来，与同一个中心点关联的所有点聚成一类；

step3：计算每一组的平均值，将该组地中心点移动到平均值的位置；

重复上面的三个操作，知道中心点不变了！！

迭代1次：

迭代3次：

迭代10次：

用

来表示聚类中心，用

来存储与第i个实例数据最近的聚类中心的索引，下面是k-均值算法的伪代码：

第一步，第一个for循环，对于每一个样例i，计算其应该属于的类。第二个for循环是聚类中心的移动，即对于每一个类k，重新计算该类的质心。

（3）优化目标

k-均值的最小化问题，最小化所有的数据点与其所关联的聚类中心点之间的距离之和，因此k-均值的代价函数（畸变函数distortion function）：机器学习-Ng-week8-聚类和降维

，其中

代表的是与

最近的聚类中心点。我们的优化目标是找到使得代价函数最小的机器学习-Ng-week8-聚类和降维

和

上面的那个迭代算法，很明显第一个循环是为了减少机器学习-Ng-week8-聚类和降维

的代价，第二个循环是为了减少机器学习-Ng-week8-聚类和降维

的代价。

（4）随机初始化-聚类中心点

step1：选择k<m，即聚类中心点的个数要小于所有的训练集实例的数量；

step2：随机选择k个训练实例，然后令K个聚类中心分别于这K个训练实例相等。

K-均值的一个问题在于，他有可能会停留在一个局部最小值点，而这取决于初始化的情况。为了避免这样的情况，我们需要多次随机初始化，最后比较多次运行k-均值的结果，选择代价函数最小的结果。这种方法在K较小的时候（2-10）是可行的，但是如果K较大，这样做就不会那么明显地改善。

（5）选择聚类数目

肘部法则：我们用一个聚类来运行K均值聚类方法，这就意味着，所有的数据都会到一个聚类里，然后计算成本函数或者计算畸变函数J。下图你可以很清晰的看出，3到达了一个肘点，3之后J下降的很慢，所以我们选择3为我们的K值。

机器学习-Ng-week8-聚类和降维

二、降维

第二种类型的无监督学习问题，称为降维。

（1）动机——数据压缩

数据压缩不仅允许我们压缩数据，因而使用较少的计算机内存或者磁盘空间，但它也加快了我们的学习算法。假设我们存在两个特征，机器学习-Ng-week8-聚类和降维

表示长度，用厘米表示，机器学习-Ng-week8-聚类和降维

用英寸表示。这就是一种冗余，这两个都是长度的测量，可以将特征从2维降低到1维。（将2维的数据投影到1维的直线上）

将数据从三维降低到2维：我们将一个三维的特征向量将至一个二维的特征向量。过程类似于上面，我们将三维向量映射到一个二维的平面上，强迫使得所有的数据都在同一个平面上，降至二维的特征向量。

（2）动机——数据可视化

如果一个有关于很多的国家的数据，但是每个向量都存在50个特征，将这50个特征的数据可视化是不可能的，使用降维的方法降至2维，便可以进行可视化！

（3）主成分分析法-PCA

主成分分析是最常见的降维算法。

在PCA中，我们希望找到一个方向向量。当我们把所有的数据都投射到该向量上，我们希望投射平均均方误差尽可能的小。方向向量是一个经过原点的向量，而投射误差是从特征向量向该方向向量作垂直线的长度。

问题是要将n维的数据降低至k维，目标是找到向量机器学习-Ng-week8-聚类和降维

使得总的投射误差最小。主成分分析和线性的比较：

主成分分析和线性回归是两种不同的算法。主成分分析最小化的是投射误差，但是线性回归尝试的是最小化预测误差。线性回归的目的是预测结果，而主成分分析不做任何预测。

上面的这个图左边的是线性回归的误差（垂直于横轴投影），右边则是PCA的误差（垂直于红色的投影线）

PAC将n个特征降维到k个，可以用来进行数据压缩。图像处理领域的KL变换使用PCA做图像压缩。但PCA要保证降维后，数据的特征损失最小。

PAC的优点：对数据进行降维处理，我们可对新求出的“主元”向量的重要性进行排序，根据需要取前面最重要的部分，将后面的维数省去，可以达到降维，同时最大程度的保持了原有的数据的信息；完全无参数限制。无需人工的干预，最后的结果依赖于数据本身（也可以当做缺点，尽管我们知道关于数据的先验知识，但却无法通过参数化等方法对处理的过程进行干预，可能效果不佳）。