【发布时间】:2020-02-28 00:38:23
【问题描述】:
我需要比较集群的相似性,但集群技术产生的集群长度不相等。
假设我有 4 个数据点 A、B、C 和 D。并假设这些数据集是一段时间内的变化。我在第一个小时内对这些数据运行 KMeans 聚类并得到 3 个聚类 [(A, B),(C),(D)]。然后我在第二个小时再次对这些数据运行 KMeans 聚类,得到另外 3 个聚类 [(B, C),(A),(D)] 等等。
我需要通过将第一个小时的集群与第二个小时的集群进行比较来衡量这些集群随时间的变化,并分配相似度分数。
例如:
第一个小时的第三个集群和第二个小时的第三个集群更相似,100%,这里没有问题,但问题是我如何测量其他的。
1-(A,B)一开始就分散了,如果说(A,B)就像(B,C)有50%。
2- 我将无法在 (A, B) 与 (A) 和 (C) 与 (A, B) 之间分配分数,因为它们的长度不同,如果遵循计算它们的方法,我将得到多个相似的分数。
如果有人有解决这个问题的想法。
【问题讨论】:
标签: python algorithm machine-learning cluster-computing k-means