R中的差异矩阵聚类答案

【问题标题】：Clustering on dissimilarity matrix in RR中的差异矩阵聚类
【发布时间】：2018-02-15 12:44:53
【问题描述】：

我目前正试图了解无监督机器学习，即集群，但有点困惑。

首先，这就是我需要聚类算法的原因。我计算了一个相异矩阵 N x N，在这里我比较了二叉树的（不）相似性。这意味着条目 N_i,i 的值为零（意味着对角线为零），条目 N_i,j 的值≥ 0。这是一个包含 100 x 100 个元素的矩阵，即我有 100 棵二叉树，我将它们相互比较。这个矩阵是在 R 之外计算的。我的矩阵中的距离是树编辑距离并满足 三角不等式。

只有这些信息，我实际上可以使用哪种聚类算法？我很确定我可以使用层次聚类，但是我将如何在 R 中仅使用这个矩阵执行 k-means oder PAM 聚类？

【问题讨论】：

标签： r cluster-analysis k-means

【解决方案1】：

您不能使用 k-means。因为它需要计算均值，以及与均值的距离。这在树上是行不通的。

HAC、PAM 和 DBSCAN 都可以。 DBSCAN 是这三者中最具可扩展性的，但如果您有足够的数据，也可以更好地工作 - 您的样本可能太小而无法做到这一点。所以我会使用 HAC。

【讨论】：