聚类任务
聚类属于无监督学习,即训练样本的标记信息是未知的。
性能度量
聚类性能度量也称为聚类有效性指标。
簇内相似度和簇间相似度
内部指标和外部指标。内部指标指的聚类参考内部模型。外部指标指的是参考外部指标。
Jaccard系数;FM指数;Rand指数
DB指数;Dunn指数;
距离计算
距离也是一种度量标准,称之为距离度量。
闵可夫斯基距离
当p=2 时,即是欧式距离(Euclidean Distance)
当p= 1时,即是曼哈顿距离(Manhattan Distance)
数据之间的距离计算,需要根据数据的属性进行采取不同的方法,属性分为连续属性和离散属性。或者被分为有序属性和无序属性。
对于无序属性可以采取VDM(Value Difference Metric)测量方式。
另外也可以采取将闵可夫斯基距离和VDM结合的方式。这是一种混合度量距离的方式。
对于重要性不同的属性,可以采取加权距离的方式
原型聚类
k均值算法
k均值算法通过采取最小化数据和聚类中心的平方误差。算法原理如下图所示:
学习向量量化
学习向量量化(Learning Vector Quantization,简称LVQ)。学习向量量化假设训练数据具有类别标记。算法原理如下图所示
高斯混合聚类
高斯混合聚类采取概率原型来表达聚类原型。算法原理如下:
密度聚类
密度聚类基于密度的聚类(density-based clustering)
DBSCAN是一种著名的密度聚类算法,它是基于邻域参数来刻画样本密度分布。
层次聚类
层次聚类指的是在不同层次进行对数据进行划分。从而形成树形的聚类结构。数据集的划分可以采用自底向上或者自顶向下的层次聚类策略。
AGBNES是一种采用自底向上的聚合策略的层次聚类算法。