如何从具有层次聚类的样本中获取聚类？答案

【问题标题】：How do you get a cluster from a sample with hierarchical clustering?如何从具有层次聚类的样本中获取聚类？
【发布时间】：2019-09-27 17:53:32
【问题描述】：

为了找到一个未见过的样本所属的聚类，

k-means 存储每个集群的质心。简单地聚类与最近的质心是新样本所属的聚类。

那么层次聚类呢？您将如何找到新样本所属的集群？

同样，在共聚类的情况下，我们只获取聚类后训练数据的行和列（单独）的集群 id。

换句话说，给定一个具有 m 个特征（列）的样本，我们需要以某种方式找到每个特征所属的集群。谁能向我解释一下这是如何在实践中实现的？如果我的假设不正确，您能指导我正确的方向吗？

谢谢

【问题讨论】：

【解决方案1】：

你没有。

聚类的目的不是标记新数据点。 K-means 有点例外，因为使用什么规则（最近的中心）很明显，但即使对于 k-means，以这种方式标记点的结果也不一定与运行 kmeans(X u {x}) 相同旧数据加上新点。所以不一致。

对于其他算法，例如层次聚类，这种效果更差。例如，一个新数据点可能会导致两个集群合并！

您可以做的（似乎是常见的解决方案）是使用聚类输出来训练分类器。然后可以使用该分类器来预测集群标签。一个缓慢但常见的选择是 (k=1-) 最近邻分类器。

【讨论】：