fpc 包有一个名为clusterboot 的函数,可用于评估聚类过程的稳定性。可以通过以下方式使用:
library(TraMineR)
data(mvad)
##Use some sequence data to illustrate
mvad.alphabet <- c("employment", "FE", "HE", "joblessness", "school", "training")
mvad.labels <- c("employment", "further education", "higher education", "joblessness", "school", "training")
mvad.scodes <- c("EM", "FE", "HE", "JL", "SC", "TR")
mvad.seq <- seqdef(mvad, 17:86, alphabet = mvad.alphabet, states = mvad.scodes, labels = mvad.labels, xtstep = 6)
## Compute Hamming distances
ham <- seqdist(mvad.seq, method="HAM")
library(fpc)
cf2 <- clusterboot(as.dist(ham),clustermethod=disthclustCBI, k=5, cut="number", method="average")
print(cf2)
clusterboot 帮助页面提供了以下指南来解释这些值。
有一些理论上的理由认为 Jaccard 相似度值小于或等于 0.5 作为“解散集群”的指示,请参阅 Hennig (2008)。通常,一个有效、稳定的集群应该产生 0.75 或更高的平均 Jaccard 相似度值。在 0.6 和 0.75 之间,集群可以被认为是数据中的指示模式,但是哪些点应该属于这些集群是非常值得怀疑的。低于 0.6 的平均 Jaccard 值,不应信任集群。 “高度稳定”的集群应产生 0.85 及以上的平均 Jaccard 相似度。
具有稳定的聚类过程并不意味着聚类是好的。您可能还对集群质量度量感兴趣。在这种情况下,您可以使用 WeightedCluster 包,请参见此处:http://mephisto.unige.ch/weightedcluster/