【问题标题】:How to deal with missing values in K-means clustering?如何处理 K-means 聚类中的缺失值?
【发布时间】:2020-09-24 21:50:51
【问题描述】:
我正在根据客户购买不同类型的产品类别来进行客户细分。
下面是我的数据的虚拟表示。 (数据是客户购买的每个类别的总收入的百分比):
Image Link
如上图链接所示,尽管此数据只有几个 0,但原始数据有很多 0。因此,将这些数据用于 kmeans 聚类不会输出任何可接受的见解,并且会使数据向左倾斜。
删除行或平均丢失的数据会产生误导。 :/
【问题讨论】:
标签:
machine-learning
cluster-analysis
k-means
【解决方案1】:
如何处理缺失值是您的选择,它当然会影响您的聚类。没有一种“正确”的方式。
几种流行的方式:
- 用该特征的平均值/平均值填充每列缺失值
- 引导:选择随机行并复制其值以填充缺失值
- Closer Neighbor:找到最近的邻居,并根据他的缺失值进行填充。
没有看到您的完整数据以及您为什么要尝试使用集群,这有点难以提供帮助。视情况而定...
你总是可以做一些特征提取(例如 PCA),也许它会提供一些更好的见解