【发布时间】:2013-11-17 05:42:17
【问题描述】:
我想知道 KMeans 是否会在进行聚类之前自动规范化特征。似乎没有提供输入以要求标准化的选项。
【问题讨论】:
标签: python scikit-learn
我想知道 KMeans 是否会在进行聚类之前自动规范化特征。似乎没有提供输入以要求标准化的选项。
【问题讨论】:
标签: python scikit-learn
区分数据预处理(归一化、分箱、加权等)和机器学习算法应用。使用sklearn.preprocessing 进行数据预处理。此外,数据可以通过不同的预处理器进行链式预处理。
对于 K-means,仅对均值进行归一化通常是不够的。一种方法是对不同特征的数据均衡方差进行归一化,因为 K-means 对数据的方差很敏感,方差较大的特征更强调结果。所以对于 K-means,我建议使用StandardScaler 进行数据预处理。
不要忘记,k-means 结果对观察的顺序很敏感,值得多次运行算法,在其间打乱数据,对结果聚类进行平均,并以这些平均聚类中心为起点运行最终评估点。
【讨论】: