机器学习实战——刻意练习

文章目录

k均值聚类
概述（简介）

应用
算法

算法流程
实例

k均值聚类

概述（简介）

1、聚类：

“类”指的是具有相似性的集合，聚类是指将数据集划分为若干类，使得各个类之内的数据最为相似，而各个类之间的数据相似度差别尽可能的大。聚类分析就是以相似性为基础，在一个聚类中的模式之间比不在同一个聚类中的模式之间具有更多的相似性。对数据集进行聚类划分，属于无监督学习。

2、K-Means：

K-Means算法是一种简单的迭代型聚类算法，采用距离作为相似性指标，从而发现给定数据集中的K个类，且每个类的中心是根据类中所有数值的均值得到的，每个类的中心用聚类中心来描述。对于给定的一个（包含n个一维以及一维以上的数据点的）数据集X以及要得到的类别数量K，选取欧式距离作为相似度指标，聚类目标实施的个类的聚类平反和最小，即最小化：
机器学习实战——刻意练习

结合最小二乘法和拉格朗日原理，聚类中心为对应类别中各数据点的平均值，同时为了使算法收敛，在迭代的过程中，应使得最终的聚类中心尽可能的不变。

3、　K均值聚类是一种无监督学习，对未标记的数据（即没有定义类别或组的数据）进行分类。该算法的目标是在数据中找到由变量K标记的组。该算法迭代地工作基于所提供的特征，将每个数据点分配给K个组中的一个。基于特征相似性对数据点进行聚类。 K均值聚类算法的结果是：
　　1.K簇的质心，可用于标记新数据
　　2.训练数据的标签（每个数据点分配给一个集群）