k-means 聚类的变量选择答案

【问题标题】：Variable selection for k-means clusteringk-means 聚类的变量选择
【发布时间】：2014-12-19 05:07:49
【问题描述】：

我想知道是否有任何好的方法可以为 k-means 算法选择变量。我正在尝试使用此算法进行市场细分，并拥有一个包含数十个潜在变量的数据集。我希望得到相当容易解释的结果，所以我应该将变量的数量限制为最大值。 5-6。我对可以在 SPSS Statistics 或 Weka 中实施的解决方案特别感兴趣。此外，是否有一种方法/算法可以获取用于聚类的最佳变量数量（即我应该使用多少个“好”变量）？

【问题讨论】：

在 k 均值聚类中，k 是用户定义的变量。它必须由用户定义。因此，当用户对集群的数量有所了解时，使用 k-means。如果您对集群的数量一无所知，则不应使用 k-means 而应使用 DBSCAN。基于密度的聚类 (DBSCAN) 定位由低密度区域彼此分隔的高密度区域。您不必指定集群的数量。算法会自己找到它们。
感谢您尝试帮助我，但不幸的是它不能回答我的问题。我想确定要在 kmeans 聚类中使用的变量（例如收入、各种商品的支出）——即哪些变量最适合分析。我还想知道，当我找出最初的一组好变量时，是否可以删除其中一些以获得更有意义的聚类（例如，我有 5 个变量，但其中 2 个“强制算法”创建具有非常小计数 - 有没有办法找到与算法“混乱”的变量？）。

标签： cluster-analysis data-mining weka k-means spss

【解决方案1】：

尝试因子分析，它应该会有所帮助。没有。您使用的因素取决于特征值 >= 1 的变量的数量。找到因子数后，使用fa() 函数查找加载值并决定需要保留哪些变量以及丢弃哪些变量。它还有助于消除高度多重共线性的变量。

【讨论】：

【解决方案2】：

要使用 k-means 获得更好的结果，请考虑检查原始数据中数字特征的标准差 - 更广泛的数据分布可以更好地分离对象。除了因子分析，FA，可以考虑使用主成分分析，PCA 来找出哪些特征携带数据中的大部分方差，并使用在生成的组件。

【讨论】：