【问题标题】:Measuring reliability of tree/dendrogram (Traminer)测量树/树状图的可靠性(Traminer)
【发布时间】:2014-10-01 09:13:55
【问题描述】:

我使用 TraMineR 进行了分析,以测量空间使用序列之间的相似性(例如 Rural(R) 与 Urban (U):序列示例 -> RRRRRUUURRUUU) 我的分析中的一个要求是在同一时间比较状态,因此我使用了汉明序列相似性。基于相似性矩阵,我创建了一个树状图,给出了各个序列之间的距离,有助于识别顺序空间使用中的“行为相似性”。 现在我正在寻找一种计算树的稳健性或可靠性的方法。有人知道我如何计算引导树(沿着分支指示引导值)吗?

亲切的问候,

约翰内斯

【问题讨论】:

    标签: sequence dendrogram robustness traminer


    【解决方案1】:

    fpc 包有一个名为clusterboot 的函数,可用于评估聚类过程的稳定性。可以通过以下方式使用:

    library(TraMineR)
    data(mvad)
    ##Use some sequence data to illustrate
    mvad.alphabet <- c("employment", "FE", "HE", "joblessness", "school", "training")
    mvad.labels <- c("employment", "further education", "higher education", "joblessness", "school", "training")
    mvad.scodes <- c("EM", "FE", "HE", "JL", "SC", "TR")
    mvad.seq <- seqdef(mvad, 17:86, alphabet = mvad.alphabet, states = mvad.scodes, labels = mvad.labels, xtstep = 6)
    ## Compute Hamming distances
    ham <- seqdist(mvad.seq, method="HAM")
    library(fpc)
    cf2 <- clusterboot(as.dist(ham),clustermethod=disthclustCBI, k=5, cut="number", method="average")
    print(cf2)
    

    clusterboot 帮助页面提供了以下指南来解释这些值。

    有一些理论上的理由认为 Jaccard 相似度值小于或等于 0.5 作为“解散集群”的指示,请参阅 Hennig (2008)。通常,一个有效、稳定的集群应该产生 0.75 或更高的平均 Jaccard 相似度值。在 0.6 和 0.75 之间,集群可以被认为是数据中的指示模式,但是哪些点应该属于这些集群是非常值得怀疑的。低于 0.6 的平均 Jaccard 值,不应信任集群。 “高度稳定”的集群应产生 0.85 及以上的平均 Jaccard 相似度。

    具有稳定的聚类过程并不意味着聚类是好的。您可能还对集群质量度量感兴趣。在这种情况下,您可以使用 WeightedCluster 包,请参见此处:http://mephisto.unige.ch/weightedcluster/

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-05-22
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多