KMeans 是否在 sklearn 中自动归一化特征答案

【问题标题】：Does KMeans normalize features automatically in sklearnKMeans 是否在 sklearn 中自动归一化特征
【发布时间】：2013-11-17 05:42:17
【问题描述】：

我想知道 KMeans 是否会在进行聚类之前自动规范化特征。似乎没有提供输入以要求标准化的选项。

【问题讨论】：

【解决方案1】：

区分数据预处理（归一化、分箱、加权等）和机器学习算法应用。使用sklearn.preprocessing 进行数据预处理。此外，数据可以通过不同的预处理器进行链式预处理。

对于 K-means，仅对均值进行归一化通常是不够的。一种方法是对不同特征的数据均衡方差进行归一化，因为 K-means 对数据的方差很敏感，方差较大的特征更强调结果。所以对于 K-means，我建议使用StandardScaler 进行数据预处理。

不要忘记，k-means 结果对观察的顺序很敏感，值得多次运行算法，在其间打乱数据，对结果聚类进行平均，并以这些平均聚类中心为起点运行最终评估点。

【讨论】：