【发布时间】:2017-05-08 18:08:49
【问题描述】:
我已经使用 pam 函数(R 中的集群包)成功运行了围绕 Medoids 的分区,现在,我想使用结果将新的观察结果归因于先前定义的集群/medoids .
解决问题的另一种方法是,考虑到 pam 函数已找到的 k 簇/中心点,它更接近于未发现的附加观察结果在初始数据集中?
x<-matrix(c(1,1.2,0.9,2.3,2,1.8,
3.2,4,3.1,3.9,3,4.4),6,2)
x
[,1] [,2]
[1,] 1.0 3.2
[2,] 1.2 4.0
[3,] 0.9 3.1
[4,] 2.3 3.9
[5,] 2.0 3.0
[6,] 1.8 4.4
pam(x,2)
观察 1、3 和 5,以及 2、4 和 6 聚集在一起,观察 1 和 6 是中心点:
Medoids:
ID
[1,] 1 1.0 3.2
[2,] 6 1.8 4.4
Clustering vector:
[1] 1 2 1 2 1 2
现在,y 应该归属/关联到哪个集群/中心点?
y<-c(1.5,4.5)
哦,如果您有多个解决方案,那么在我拥有的大数据集中计算时间很重要。
【问题讨论】:
-
您可以计算从中位数到 y 的距离以及哪个距离更小。 Y 将属于该集群。
-
您不需要用于
which.min和距离计算的库。 只需自己编写一行代码!
标签: r machine-learning cluster-analysis data-mining pam