【发布时间】:2014-01-25 10:28:10
【问题描述】:
K-means 聚类是一种常用的聚类方法。假设有 N 个点进行 K-means 聚类,即 N 个点应该被分成 K 组,每组中的点之间具有相似性。
我们应该在K-means clustering进程之前给初始中心赋值,这里我从所有点中随机选择K个点,程序每次运行得到不同的输出。为什么这会导致不同的结果,我怎么知道哪个是最好的分类?
【问题讨论】:
-
执行此 N/K 次,每次留出一个测试并用它来对您分类的点进行基准测试。这使您可以衡量您的分类有多好。 (注意:不要从 K 中选择结果最好的那一个,这并不是说它是最好的分类——这是为了测试你的分类)。
-
@BenjaminGruenbaum 您能否详细说明您将如何进行基准测试?最初我以为您在谈论validation set(我不确定它会如何工作,因为这些点最初没有标记),但现在我不再那么确定了。
标签: algorithm cluster-analysis k-means