【发布时间】:2021-04-11 12:34:30
【问题描述】:
sklearn中的K-means聚类,聚类的数量是预先知道的(它是2)。 有多种功能。特征值最初没有分配任何权重,即它们被同等加权。然而,任务是为每个特征分配自定义权重,以获得最佳的聚类分离。 如何确定每个特征的最佳样本权重 (sample_weight),以便尽可能最好地分离两个集群? 如果这对于 k-means 或 sklearn 是不可能的,我对任何替代的聚类解决方案都感兴趣,关键是我需要自动确定多元特征的适当权重的方法,以最大化聚类分离。
【问题讨论】:
-
同时,我已经实现了以下操作:分别对每个组件进行聚类,然后计算轮廓分数、calinski harabaszscore、dunn score 和 inverse davies bouldin score。然后将这些分数缩放到相同的数量级,然后将它们 PCA 缩放为 1 个特征。这为每个组件生成了权重。它似乎给出了合理的结果。我想更好的方法是全因子实验 (DOE),但似乎这种简单的方法也能产生令人满意的结果。
标签: machine-learning scikit-learn cluster-analysis unsupervised-learning feature-clustering