【问题标题】:How do you get a cluster from a sample with hierarchical clustering?如何从具有层次聚类的样本中获取聚类?
【发布时间】:2019-09-27 17:53:32
【问题描述】:

为了找到一个未见过的样本所属的聚类,

k-means 存储每个集群的质心。简单地聚类与最近的质心是新样本所属的聚类。

那么层次聚类呢?您将如何找到新样本所属的集群?

同样,在共聚类的情况下,我们只获取聚类后训练数据的行和列(单独)的集群 id。

换句话说,给定一个具有 m 个特征(列)的样本,我们需要以某种方式找到每个特征所属的集群。 谁能向我解释一下这是如何在实践中实现的? 如果我的假设不正确,您能指导我正确的方向吗?

谢谢

【问题讨论】:

标签: cluster-analysis cross-validation hierarchical-clustering


【解决方案1】:

你没有。

聚类的目的不是标记新数据点。 K-means 有点例外,因为使用什么规则(最近的中心)很明显,但即使对于 k-means,以这种方式标记点的结果也不一定与运行 kmeans(X u {x}) 相同旧数据加上新点。所以不一致。

对于其他算法,例如层次聚类,这种效果更差。例如,一个新数据点可能会导致两个集群合并!

您可以做的(似乎是常见的解决方案)是使用聚类输出来训练分类器。然后可以使用该分类器来预测集群标签。一个缓慢但常见的选择是 (k=1-) 最近邻分类器。

【讨论】:

  • hrmm 我明白了.. 这很不幸,也不足为奇。谢谢,这让我有点扫兴了。
猜你喜欢
  • 2012-03-10
  • 2018-06-04
  • 2021-03-10
  • 2014-06-28
  • 2016-08-07
  • 2013-05-08
  • 2020-06-10
  • 2018-10-04
  • 2020-06-28
相关资源
最近更新 更多