【问题标题】:How to deal with missing values in K-means clustering?如何处理 K-means 聚类中的缺失值?
【发布时间】:2020-09-24 21:50:51
【问题描述】:

我正在根据客户购买不同类型的产品类别来进行客户细分。 下面是我的数据的虚拟表示。 (数据是客户购买的每个类别的总收入的百分比):

Image Link

如上图链接所示,尽管此数据只有几个 0,但原始数据有很多 0。因此,将这些数据用于 kmeans 聚类不会输出任何可接受的见解,并且会使数据向左倾斜。 删除行或平均丢失的数据会产生误导。 :/

【问题讨论】:

    标签: machine-learning cluster-analysis k-means


    【解决方案1】:

    如何处理缺失值是您的选择,它当然会影响您的聚类。没有一种“正确”的方式。 几种流行的方式:

    1. 用该特征的平均值/平均值填充每列缺失值
    2. 引导:选择随机行并复制其值以填充缺失值
    3. Closer Neighbor:找到最近的邻居,并根据他的缺失值进行填充。

    没有看到您的完整数据以及您为什么要尝试使用集群,这有​​点难以提供帮助。视情况而定...

    你总是可以做一些特征提取(例如 PCA),也许它会提供一些更好的见解

    【讨论】:

      猜你喜欢
      • 2019-05-04
      • 2015-04-11
      • 2020-10-27
      • 2012-11-08
      • 2016-02-04
      • 2018-11-11
      • 2020-06-03
      • 2013-04-28
      • 2011-08-13
      相关资源
      最近更新 更多