如何用现有的 K-means 模型分割新数据？答案

【问题标题】：How to segment new data with existing K-means model?如何用现有的 K-means 模型分割新数据？
【发布时间】：2013-08-10 11:16:30
【问题描述】：

我已经使用 k-means 聚类建立了一个分割模型。

谁能描述将新数据分配到这些段的过程？

目前，我正在应用与构建模型相同的转换/标准化/异常值，然后计算欧几里得距离。最小距离是记录落入的段。

但是，我看到大多数人属于一个特定的部分，我想知道我是否在此过程中遗漏了什么？

谢谢

【问题讨论】：

【解决方案1】：

根据与最近均值的欧几里得距离对新观测值进行分类可能适用于某些情况，但它会忽略原始聚类的形状/大小。

解决此问题的一种方法是使用原始集群数据来帮助对每个新观察进行分类（例如，使用 KNN http://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm）

使用它，您不仅可以获得每个集群的平均值，还可以获得方差。对于每个新的观察，您可以计算它属于每个集群的概率。该概率将考虑原始集群大小/形状。使用类型类型的“软”方法也更好，因为它可以告诉您每个新观察值属于每个集群的强度，并且您可以将观察值标记为离所有集群大于一定数量标准偏差的异常值.

【讨论】：