如何确定 R 中分类数据的聚类方法？答案

【问题标题】：How to decide on the clustering method for categorical data in R?如何确定 R 中分类数据的聚类方法？
【发布时间】：2020-02-07 18:42:42
【问题描述】：

我正在尝试对混合数据（人口统计变量 + Likert 从 1 到 10 的偏好进行评分）进行聚类分析。我正在尝试使用函数 daisy() 对混合数据应用层次聚类，但是当我计算拟合优度 - 共生相关性时，得分为 0.60，这不是很高。

如何提高合身度？分层方法是否适合此数据？李克特量表数据应该被视为因素还是数字？还有，在调用-hclust(seg.dist, method="complete")的时候，这个方法适合我的数据吗？

我也尝试了潜在类分析，但结果并不有趣（除非我做错了）

seg.dist <- daisy(EUR_data)
as.matrix(seg.dist)
seg.hc <- hclust(seg.dist, method="complete")

计算共生相关性：

cor(cophenetic(seg.hc), seg.dist)

【问题讨论】：

【解决方案1】：

改进数据的预处理。

某些属性会比其他属性更重要。

李克特属性通常也不能被视为区间量表，因为由于文化原因，人们不太可能给出 7 而不是 6 或 8：7 是运气不好。

聚类效果取决于您的距离，因此请改进您的预处理和距离计算！

【讨论】：