在某个聚类c中,ρi

>ρb
  • ,则i会分配到聚类c中,否则i被称为halo(可以被理解为噪声)

5.dc的取值
可以去dc,使得平均邻居数占数据集中所有点的1%-2%
dc的取值具有鲁棒性,dc大,ρ

大,计算δ

和选中心点时只比较相对大小,与具体的数值无关

6.cutoff kernal or gaussion kernal
对与小数据集,ρ

δ 的计算不可避免的受统计误差影响,因此计算ρ

时采用gaussion kernal要更好些。

7.实验效果
输入:距离矩阵/相似度矩阵
(不一定要是欧式距离),只需要点之间的关系(通过MDS多维尺度变换能直观的展现数据点之间在多种距离上离得多近,还可以产生一个低维的数据点表示,MDS不需要原始数据,只需要衡量点间距离的距离矩阵。)
7.1.Spiral
Density Peak
7.2.Flame
Density Peak
7.3.Aggregation
Density Peak
7.4.Jain
Density Peak

8.思考
Q1.当密度分布不均匀时,聚类效果如何?

效果不好(如Jain数据集),在计算局部密度时并没有考虑局部结构
Q2.重叠群组?
不交叉

相关文章: