【问题标题】:Does KMeans normalize features automatically in sklearnKMeans 是否在 sklearn 中自动归一化特征
【发布时间】:2013-11-17 05:42:17
【问题描述】:

我想知道 KMeans 是否会在进行聚类之前自动规范化特征。似乎没有提供输入以要求标准化的选项。

【问题讨论】:

    标签: python scikit-learn


    【解决方案1】:

    区分数据预处理(归一化、分箱、加权等)和机器学习算法应用。使用sklearn.preprocessing 进行数据预处理。此外,数据可以通过不同的预处理器进行链式预处理。

    对于 K-means,仅对均值进行归一化通常是不够的。一种方法是对不同特征的数据均衡方差进行归一化,因为 K-means 对数据的方差很敏感,方差较大的特征更强调结果。所以对于 K-means,我建议使用StandardScaler 进行数据预处理。

    不要忘记,k-means 结果对观察的顺序很敏感,值得多次运行算法,在其间打乱数据,对结果聚类进行平均,并以这些平均聚类中心为起点运行最终评估点。

    【讨论】:

    • 谢谢@alko。所以对于多次运行,只设置n_init参数应该没问题吧?
    • @alko 我认为 n_init 不会进行功能改组。我在这里更具体地问了这个问题stackoverflow.com/questions/47604826/…
    猜你喜欢
    • 2014-12-27
    • 2014-01-19
    • 2018-05-21
    • 2021-05-22
    • 2016-11-30
    • 2015-11-23
    • 2014-08-06
    • 2020-08-10
    • 2018-02-27
    相关资源
    最近更新 更多