【问题标题】:Cluster analysis of large dataset containing only categorical variables仅包含分类变量的大型数据集的聚类分析
【发布时间】:2019-05-31 04:55:36
【问题描述】:

我的任务是根据客户一起购买的产品对他们进行聚类。我的数据包含与每个客户相关的 500,000 行和 8,000 个变量(产品 ID)。每个变量都是一个热编码向量,显示客户是否购买了该产品。

我曾尝试使用 MCA(多重对应算法)降低数据的维度,然后使用 k-means 和 dbscan 进行聚类分析,但结果并不令人满意。

高维大型数据集的聚类分析有哪些合适的算法及其python实现?

【问题讨论】:

    标签: python cluster-analysis large-data


    【解决方案1】:

    您应该使用频繁模式挖掘,而不是聚类。

    one-hot 编码变量通常弊大于利。使用合适的聚类算法(例如分层、DBSCAN,但不是 k-means)对此类数据使用精心选择的距离(在某些数据集上可能像 Hamming 或 Jaccard 一样简单)。或者,尝试 k 模式。但最有可能的是,频繁项集是对 nsuvh 数据更有意义的分析。

    【讨论】:

      猜你喜欢
      • 2018-10-07
      • 2018-12-26
      • 2013-11-11
      • 2020-02-09
      • 1970-01-01
      • 2019-02-06
      • 2016-08-17
      • 2017-05-05
      • 2020-04-14
      相关资源
      最近更新 更多