【问题标题】:How to find the most representative/distinguish features in each cluster after doing K-mean clustering?进行 K-mean 聚类后,如何在每个聚类中找到最具代表性/最显着的特征?
【发布时间】:2017-10-08 03:18:16
【问题描述】:

我尝试将 K-mean 与高维数据集(CDR 数据)一起使用。

聚类后,我想用信息量最大的特征来表示每个聚类,这些特征可以显示客户的独特/代表性特征那个集群。

例如,

集群 1:[:call_duration],[:number_of_friends],[:call_at_night ]

集群 2:[:call_duration],[:use_promotion]

集群 3:[:internet_usage]

我想知道...

问题 1:如何找到可以代表每个集群的信息特征? 问题2:如果有很多信息特征,如何衡量哪个更具有代表性?

另一个问题是“如何衡量价值是高还是低?”

我当前的解决方案是对每个簇质心中的每个特征应用 z 归一化,然后我假设

  • >2σ 是异常值
  • (-2σ 到 -1σ)(1σ 到 2σ) 低/高
  • -1σ 到 1σ 中等

问题 3:这种测量有意义吗?请给我你的建议。

【问题讨论】:

    标签: cluster-analysis k-means


    【解决方案1】:

    训练决策树以区分集群。

    或者任何其他的特征选择方法进行分类,因为现在这是一个分类问题。

    【讨论】:

      猜你喜欢
      • 2013-04-23
      • 2020-08-17
      • 2013-09-06
      • 2021-02-14
      • 2019-04-23
      • 2014-07-23
      • 2016-11-23
      • 2021-12-13
      • 2019-09-19
      相关资源
      最近更新 更多