【问题标题】:Variable selection for k-means clusteringk-means 聚类的变量选择
【发布时间】:2014-12-19 05:07:49
【问题描述】:

我想知道是否有任何好的方法可以为 k-means 算法选择变量。我正在尝试使用此算法进行市场细分,并拥有一个包含数十个潜在变量的数据集。我希望得到相当容易解释的结果,所以我应该将变量的数量限制为最大值。 5-6。我对可以在 SPSS Statistics 或 Weka 中实施的解决方案特别感兴趣。 此外,是否有一种方法/算法可以获取用于聚类的最佳变量数量(即我应该使用多少个“好”变量)?

【问题讨论】:

  • 在 k 均值聚类中,k 是用户定义的变量。它必须由用户定义。因此,当用户对集群的数量有所了解时,使用 k-means。如果您对集群的数量一无所知,则不应使用 k-means 而应使用 DBSCAN。基于密度的聚类 (DBSCAN) 定位由低密度区域彼此分隔的高密度区域。您不必指定集群的数量。算法会自己找到它们。
  • 感谢您尝试帮助我,但不幸的是它不能回答我的问题。我想确定要在 kmeans 聚类中使用的变量(例如收入、各种商品的支出)——即哪些变量最适合分析。我还想知道,当我找出最初的一组好变量时,是否可以删除其中一些以获得更有意义的聚类(例如,我有 5 个变量,但其中 2 个“强制算法”创建具有非常小计数 - 有没有办法找到与算法“混乱”的变量?)。

标签: cluster-analysis data-mining weka k-means spss


【解决方案1】:

尝试因子分析,它应该会有所帮助。没有。您使用的因素取决于特征值 >= 1 的变量的数量。 找到因子数后,使用fa() 函数查找加载值并决定需要保留哪些变量以及丢弃哪些变量。它还有助于消除高度多重共线性的变量。

【讨论】:

    【解决方案2】:

    要使用 k-means 获得更好的结果,请考虑检查原始数据中数字特征的标准差 - 更广泛的数据分布可以更好地分离对象。除了因子分析,FA,可以考虑使用主成分分析,PCA 来找出哪些特征携带数据中的大部分方差,并使用在生成的组件。

    【讨论】:

      猜你喜欢
      • 2015-04-11
      • 2015-06-13
      • 2020-01-18
      • 2017-03-22
      • 2011-08-13
      • 2013-08-08
      • 2013-02-14
      • 2018-01-14
      • 2014-09-26
      相关资源
      最近更新 更多