如何处理 K-means 聚类中的缺失值？

【问题标题】：How to deal with missing values in K-means clustering?如何处理 K-means 聚类中的缺失值？
【发布时间】：2020-09-24 21:50:51
【问题描述】：

我正在根据客户购买不同类型的产品类别来进行客户细分。下面是我的数据的虚拟表示。（数据是客户购买的每个类别的总收入的百分比）：

如上图链接所示，尽管此数据只有几个 0，但原始数据有很多 0。因此，将这些数据用于 kmeans 聚类不会输出任何可接受的见解，并且会使数据向左倾斜。删除行或平均丢失的数据会产生误导。：/

【问题讨论】：

【解决方案1】：

如何处理缺失值是您的选择，它当然会影响您的聚类。没有一种“正确”的方式。几种流行的方式：

没有看到您的完整数据以及您为什么要尝试使用集群，这有点难以提供帮助。视情况而定...

你总是可以做一些特征提取（例如 PCA），也许它会提供一些更好的见解

【讨论】：