【发布时间】:2015-04-04 18:47:45
【问题描述】:
我正在对数据集执行均值偏移聚类。 estimate_bandwidth 函数估计执行均值漂移聚类的适当带宽。
语法:
sklearn.cluster.estimate_bandwidth(X, quantile=0.3, n_samples=None, random_state=0)
我发现估计的带宽随着分位数的增加而增加,从而导致集群数量减少。同样,分位数的减少会降低带宽,因此不会增加。集群。
所以,似乎没有。簇的数量取决于选择的分位数。
如何选择最佳分位数?
【问题讨论】:
-
运气和经验。很遗憾。但究竟什么是“最佳”?
-
“最优”在某种意义上说集群是稳定的。
-
那么从这个意义上说,无穷大是最优的。
标签: python cluster-analysis mean-shift