k-means:仅适用数值Dataset;
1.确定聚类数目k;2.选取k个初始中心点;3.将Dataset中的每一个元素分别与k个中心点计算欧氏距离,归并到欧氏距离最近的类中;4.使用平均值法means更新k个中心点;迭代3.4步骤直到中心点无变化得到结果;
k-modes:适用非数值Dataset;
与k-means区别之处:
1.相关度D计算方法:D = 两组数据之间所有不同属性值的个数;
2.中心点更新方法:以每个类中每种属性的众数mode作为类的属性更新值;
k-prototype:适用混合数值Dataset;
相关性度量:D=P1+a*P2,其中P1采用k-means度量,P2采用k-modes度量,a是权重;
难点总结:1.k的确定;2.k个初始中心点的选取;3.k-prototype中权重a的确定;
mean-shift-clustering:无需提前预知聚类数目k
1.确定滑动窗口的半径,随机选择一系列中心点C;
2.每个滑动窗口向数据点密度更高的方向移动,并以区域内的均值更新中心点;
3.当向任意方向移动均无法提高区域密度时,结束滑动;
4.当产生的多个窗口有重叠时,仅保留密度最高的窗口,得到k个窗口;
5.根据产生的k个区域中心点,对整个数据集进行聚类;