【发布时间】:2012-08-30 13:33:42
【问题描述】:
在 R 中,您可以使用各种指标在聚类之前构建距离矩阵,例如二进制距离,曼哈顿距离等... 但是,在选择联动方式(完全、平均、单一等)时,这些联动都使用欧式距离。如果您依赖差异度量来构建距离矩阵,这似乎并不特别合适。
在构建聚类树时,有没有办法(或库...)将其他距离应用于链接方法?
谢谢!
【问题讨论】:
-
我是否理解正确:您使用非标准距离计算距离矩阵(我经常这样做,例如使用 $\frac{1}{2}(1 - COR (X)$) .在层次聚类新距离计算:融合对象(簇)到所有其他对象/簇的距离。问题是:如何使
hclust也使用非标准距离这些计算? -
这意味着这里有(至少)2个问题:a)编程问题。 b) 统计部分:是否有必要/好/有意义/在
hclust内使用非标准距离的含义是什么,因为它在 distance matrix 上而不是在数据矩阵? -
的确,这正是我的问题:如何在迭代聚类中使用非标准度量,即在链接方法中。
-
我认为在stackoverflow上可以回答问题的编程部分。由于我对问题的统计/数学部分更感兴趣,我刚刚在交叉验证上发布了该部分:stats.stackexchange.com/questions/35395/…
标签: r cluster-analysis