【问题标题】:KMeans clustering for the following mixed variable data对以下混合变量数据进行 KMeans 聚类
【发布时间】:2016-09-16 13:30:18
【问题描述】:

有人可以帮我解决这个问题吗?

我正在学习 KMeans 聚类概念。如果变量是连续的,我知道如何聚类。但这个数据集包含分类/离散变量,如性别和邮政编码。

Sno Age Gender Zip  Salary
1   26  0   9822    100
2   38  1   9822    700
3   19  1   9822    100
4   64  0   9810    2500    
5   53  1   9810    1200
6   75  1   9810    1800
7   19  0   9822    75
8   36  1   9822    350
9   42  1   9875    1800
10  41  0   9875    750

【问题讨论】:

    标签: k-means categorical-data


    【解决方案1】:

    K-Means 仅适用于数值数据。

    K-means 对分类数据失败,因为取分类数据的平均值根本没有意义。距离也不行。有些人使用一种热编码在 K-means 上运行数据。但这也没有给出正确的集群。

    要解决此类问题,您可以查看 K-Means 的另一种变体,称为 K-Prototype 算法,该算法适用于混合分类和数值数据。

    查看https://pypi.python.org/pypi/kmodes/

    此链接包含使用此算法的论文和 python 包。也很容易理解。

    【讨论】:

      猜你喜欢
      • 2020-11-05
      • 1970-01-01
      • 2011-12-08
      • 2015-08-29
      • 2017-10-05
      • 2018-06-14
      • 1970-01-01
      • 1970-01-01
      • 2021-10-30
      相关资源
      最近更新 更多