k均值聚类

概述(简介)

1、聚类:

“类”指的是具有相似性的集合,聚类是指将数据集划分为若干类,使得各个类之内的数据最为相似,而各个类之间的数据相似度差别尽可能的大。聚类分析就是以相似性为基础,在一个聚类中的模式之间比不在同一个聚类中的模式之间具有更多的相似性。对数据集进行聚类划分,属于无监督学习。

2、K-Means:

K-Means算法是一种简单的迭代型聚类算法,采用距离作为相似性指标,从而发现给定数据集中的K个类,且每个类的中心是根据类中所有数值的均值得到的,每个类的中心用聚类中心来描述。对于给定的一个(包含n个一维以及一维以上的数据点的)数据集X以及要得到的类别数量K,选取欧式距离作为相似度指标,聚类目标实施的个类的聚类平反和最小,即最小化:
机器学习实战——刻意练习

结合最小二乘法和拉格朗日原理,聚类中心为对应类别中各数据点的平均值,同时为了使算法收敛,在迭代的过程中,应使得最终的聚类中心尽可能的不变。

3、 K均值聚类是一种无监督学习,对未标记的数据(即没有定义类别或组的数据)进行分类。 该算法的目标是在数据中找到由变量K标记的组。该算法迭代地工作基于所提供的特征,将每个数据点分配给K个组中的一个。 基于特征相似性对数据点进行聚类。 K均值聚类算法的结果是:
  1.K簇的质心,可用于标记新数据
  2.训练数据的标签(每个数据点分配给一个集群)

应用

  • 应用简介
      K均值聚类算法用于查找未在数据中明确标记的组。这可用于判别存在哪些类别特征或用于识别复杂数据集中的未知组。一旦运行算法并定义了组,就可以轻松地将任何新数据分配给正确的组。

这是一种多功能算法,可用于任何类型的分组。具体的一些示例是:

  • 行为细分:

按购买历史记录细分
按应用程序,网站或平台上的活动进行细分
根据兴趣定义角色
根据活动监控创建配置文件

  • 库存分类:

按销售活动分组库存
按制造指标对库存进行分组

  • 分类传感器测量

检测运动传感器中的活动类型
分组图像
单独的音频
确定健康监测中的群体
检测机器人或异常:

从机器人中分离出有效的活动组
将有效活动分组以清除异常值检测
此外,监视跟踪数据点是否随时间在组之间切换可用于检测数据中的有意义的变化。

算法

算法流程

-随机选取K个样本作为聚类中心;
-计算各样本与各个聚类中心的距离;
-将各样本回归于与之距离最近的聚类中心;
-求各个类的样本的均值,作为新的聚类中心;
-判定:若类中心不再发生变动或者达到迭代次数,算法结束,否则回到第二步。
机器学习实战——刻意练习

实例

机器学习实战——刻意练习

机器学习实战——刻意练习参考1
参考2

相关文章:

  • 2021-08-31
  • 2021-10-02
  • 2021-11-20
猜你喜欢
  • 2021-12-04
  • 2021-09-25
  • 2021-11-04
  • 2021-09-12
  • 2022-12-23
  • 2021-11-02
相关资源
相似解决方案