聚类算法Clustering概述分析

k-means：仅适用数值Dataset；

1.确定聚类数目k；2.选取k个初始中心点；3.将Dataset中的每一个元素分别与k个中心点计算欧氏距离，归并到欧氏距离最近的类中；4.使用平均值法means更新k个中心点；迭代3.4步骤直到中心点无变化得到结果；

k-modes：适用非数值Dataset；

与k-means区别之处：

1.相关度D计算方法：D = 两组数据之间所有不同属性值的个数；

2.中心点更新方法：以每个类中每种属性的众数mode作为类的属性更新值；

k-prototype：适用混合数值Dataset；

相关性度量：D=P1+a*P2，其中P1采用k-means度量，P2采用k-modes度量，a是权重；

难点总结：1.k的确定；2.k个初始中心点的选取；3.k-prototype中权重a的确定；

mean-shift-clustering：无需提前预知聚类数目k

1.确定滑动窗口的半径，随机选择一系列中心点C；

2.每个滑动窗口向数据点密度更高的方向移动，并以区域内的均值更新中心点；

3.当向任意方向移动均无法提高区域密度时，结束滑动；

4.当产生的多个窗口有重叠时，仅保留密度最高的窗口，得到k个窗口；

5.根据产生的k个区域中心点，对整个数据集进行聚类；

聚类算法Clustering概述分析