仅包含分类变量的大型数据集的聚类分析答案

【问题标题】：Cluster analysis of large dataset containing only categorical variables仅包含分类变量的大型数据集的聚类分析
【发布时间】：2019-05-31 04:55:36
【问题描述】：

我的任务是根据客户一起购买的产品对他们进行聚类。我的数据包含与每个客户相关的 500,000 行和 8,000 个变量（产品 ID）。每个变量都是一个热编码向量，显示客户是否购买了该产品。

我曾尝试使用 MCA（多重对应算法）降低数据的维度，然后使用 k-means 和 dbscan 进行聚类分析，但结果并不令人满意。

高维大型数据集的聚类分析有哪些合适的算法及其python实现？

【问题讨论】：

【解决方案1】：

您应该使用频繁模式挖掘，而不是聚类。

one-hot 编码变量通常弊大于利。使用合适的聚类算法（例如分层、DBSCAN，但不是 k-means）对此类数据使用精心选择的距离（在某些数据集上可能像 Hamming 或 Jaccard 一样简单）。或者，尝试 k 模式。但最有可能的是，频繁项集是对 nsuvh 数据更有意义的分析。

【讨论】：