【发布时间】:2019-05-31 04:55:36
【问题描述】:
我的任务是根据客户一起购买的产品对他们进行聚类。我的数据包含与每个客户相关的 500,000 行和 8,000 个变量(产品 ID)。每个变量都是一个热编码向量,显示客户是否购买了该产品。
我曾尝试使用 MCA(多重对应算法)降低数据的维度,然后使用 k-means 和 dbscan 进行聚类分析,但结果并不令人满意。
高维大型数据集的聚类分析有哪些合适的算法及其python实现?
【问题讨论】:
标签: python cluster-analysis large-data