聚类任务

聚类属于无监督学习,即训练样本的标记信息是未知的。

性能度量

聚类性能度量也称为聚类有效性指标。

簇内相似度簇间相似度
内部指标外部指标。内部指标指的聚类参考内部模型。外部指标指的是参考外部指标。

Jaccard系数;FM指数;Rand指数

DB指数;Dunn指数;

距离计算

距离也是一种度量标准,称之为距离度量。
闵可夫斯基距离
当p=2 时,即是欧式距离(Euclidean Distance)
当p= 1时,即是曼哈顿距离(Manhattan Distance)

数据之间的距离计算,需要根据数据的属性进行采取不同的方法,属性分为连续属性和离散属性。或者被分为有序属性和无序属性。
对于无序属性可以采取VDM(Value Difference Metric)测量方式。
另外也可以采取将闵可夫斯基距离和VDM结合的方式。这是一种混合度量距离的方式。
对于重要性不同的属性,可以采取加权距离的方式

原型聚类

k均值算法

k均值算法通过采取最小化数据和聚类中心的平方误差。算法原理如下图所示:
机器学习(西瓜书)——聚类

学习向量量化

学习向量量化(Learning Vector Quantization,简称LVQ)。学习向量量化假设训练数据具有类别标记。算法原理如下图所示
机器学习(西瓜书)——聚类

高斯混合聚类

高斯混合聚类采取概率原型来表达聚类原型。算法原理如下:
机器学习(西瓜书)——聚类

密度聚类

密度聚类基于密度的聚类(density-based clustering)

DBSCAN是一种著名的密度聚类算法,它是基于邻域参数来刻画样本密度分布。
机器学习(西瓜书)——聚类

层次聚类

层次聚类指的是在不同层次进行对数据进行划分。从而形成树形的聚类结构。数据集的划分可以采用自底向上或者自顶向下的层次聚类策略。
AGBNES是一种采用自底向上的聚合策略的层次聚类算法。
机器学习(西瓜书)——聚类

相关文章:

  • 2022-12-23
  • 2021-01-31
  • 2022-12-23
  • 2022-01-05
  • 2021-05-31
  • 2021-06-23
  • 2021-05-27
  • 2021-08-28
猜你喜欢
  • 2021-11-29
  • 2022-12-23
  • 2021-06-18
  • 2021-11-13
  • 2022-12-23
  • 2021-11-22
相关资源
相似解决方案