进行 K-mean 聚类后，如何在每个聚类中找到最具代表性/最显着的特征？答案

【问题标题】：How to find the most representative/distinguish features in each cluster after doing K-mean clustering?进行 K-mean 聚类后，如何在每个聚类中找到最具代表性/最显着的特征？
【发布时间】：2017-10-08 03:18:16
【问题描述】：

我尝试将 K-mean 与高维数据集（CDR 数据）一起使用。

聚类后，我想用信息量最大的特征来表示每个聚类，这些特征可以显示客户的独特/代表性特征那个集群。

例如，

集群 1：[高：call_duration]，[低：number_of_friends]，[高：call_at_night ]

集群 2：[低：call_duration]，[高：use_promotion]

集群 3：[高：internet_usage]

我想知道...

问题 1：如何找到可以代表每个集群的信息特征？ 问题2：如果有很多信息特征，如何衡量哪个更具有代表性？

另一个问题是“如何衡量价值是高还是低？”

我当前的解决方案是对每个簇质心中的每个特征应用 z 归一化，然后我假设

或 >2σ 是异常值
(-2σ 到 -1σ) 或 (1σ 到 2σ) 低/高
-1σ 到 1σ 中等

问题 3：这种测量有意义吗？请给我你的建议。

【问题讨论】：

标签： cluster-analysis k-means

【解决方案1】：

训练决策树以区分集群。

或者任何其他的特征选择方法进行分类，因为现在这是一个分类问题。

【讨论】：