【发布时间】:2017-10-08 03:18:16
【问题描述】:
我尝试将 K-mean 与高维数据集(CDR 数据)一起使用。
聚类后,我想用信息量最大的特征来表示每个聚类,这些特征可以显示客户的独特/代表性特征那个集群。
例如,
集群 1:[高:call_duration],[低:number_of_friends],[高:call_at_night ]
集群 2:[低:call_duration],[高:use_promotion]
集群 3:[高:internet_usage]
我想知道...
问题 1:如何找到可以代表每个集群的信息特征? 问题2:如果有很多信息特征,如何衡量哪个更具有代表性?
另一个问题是“如何衡量价值是高还是低?”
我当前的解决方案是对每个簇质心中的每个特征应用 z 归一化,然后我假设
- 或 >2σ 是异常值
- (-2σ 到 -1σ) 或 (1σ 到 2σ) 低/高
- -1σ 到 1σ 中等
问题 3:这种测量有意义吗?请给我你的建议。
【问题讨论】: