【问题标题】:Clustering on dissimilarity matrix in RR中的差异矩阵聚类
【发布时间】:2018-02-15 12:44:53
【问题描述】:

我目前正试图了解无监督机器学习,即集群,但有点困惑。

首先,这就是我需要聚类算法的原因。我计算了一个相异矩阵 N x N,在这里我比较了二叉树的(不)相似性。这意味着条目 Ni,i 的值为零(意味着对角线为零),条目 Ni,j 的值≥ 0。这是一个包含 100 x 100 个元素的矩阵,即我有 100 棵二叉树,我将它们相互比较。这个矩阵是在 R 之外计算的。我的矩阵中的距离是树编辑距离并满足 三角不等式

只有这些信息,我实际上可以使用哪种聚类算法?我很确定我可以使用层次聚类,但是我将如何在 R 中仅使用这个矩阵执行 k-means oder PAM 聚类?

【问题讨论】:

    标签: r cluster-analysis k-means


    【解决方案1】:

    您不能使用 k-means。因为它需要计算均值,以及与均值的距离。这在树上是行不通的。

    HAC、PAM 和 DBSCAN 都可以。 DBSCAN 是这三者中最具可扩展性的,但如果您有足够的数据,也可以更好地工作 - 您的样本可能太小而无法做到这一点。所以我会使用 HAC。

    【讨论】:

      猜你喜欢
      • 2016-04-04
      • 2015-12-14
      • 2013-07-18
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多