【问题标题】:How to decide on the clustering method for categorical data in R?如何确定 R 中分类数据的聚类方法?
【发布时间】:2020-02-07 18:42:42
【问题描述】:

我正在尝试对混合数据(人口统计变量 + Likert 从 1 到 10 的偏好进行评分)进行聚类分析。 我正在尝试使用函数 daisy() 对混合数据应用层次聚类,但是当我计算拟合优度 - 共生相关性时,得分为 0.60,这不是很高。

如何提高合身度? 分层方法是否适合此数据? 李克特量表数据应该被视为因素还是数字? 还有,在调用-hclust(seg.dist, method="complete")的时候,这个方法适合我的数据吗?

我也尝试了潜在类分析,但结果并不有趣(除非我做错了)

seg.dist <- daisy(EUR_data)
as.matrix(seg.dist)
seg.hc <- hclust(seg.dist, method="complete")

计算共生相关性:

cor(cophenetic(seg.hc), seg.dist)

【问题讨论】:

    标签: cluster-analysis categorical-data hierarchical-clustering likert r-daisy


    【解决方案1】:

    改进数据的预处理。

    某些属性会比其他属性更重要。

    李克特属性通常也不能被视为区间量表,因为由于文化原因,人们不太可能给出 7 而不是 6 或 8:7 是运气不好。

    聚类效果取决于您的距离,因此请改进您的预处理和距离计算!

    【讨论】:

      猜你喜欢
      • 2013-02-28
      • 2021-03-19
      • 2018-11-04
      • 2020-06-10
      • 1970-01-01
      • 1970-01-01
      • 2014-03-28
      相关资源
      最近更新 更多