【发布时间】:2013-08-10 11:16:30
【问题描述】:
我已经使用 k-means 聚类建立了一个分割模型。
谁能描述将新数据分配到这些段的过程?
目前,我正在应用与构建模型相同的转换/标准化/异常值,然后计算欧几里得距离。最小距离是记录落入的段。
但是,我看到大多数人属于一个特定的部分,我想知道我是否在此过程中遗漏了什么?
谢谢
【问题讨论】:
标签: transformation k-means euclidean-distance
我已经使用 k-means 聚类建立了一个分割模型。
谁能描述将新数据分配到这些段的过程?
目前,我正在应用与构建模型相同的转换/标准化/异常值,然后计算欧几里得距离。最小距离是记录落入的段。
但是,我看到大多数人属于一个特定的部分,我想知道我是否在此过程中遗漏了什么?
谢谢
【问题讨论】:
标签: transformation k-means euclidean-distance
根据与最近均值的欧几里得距离对新观测值进行分类可能适用于某些情况,但它会忽略原始聚类的形状/大小。
解决此问题的一种方法是使用原始集群数据来帮助对每个新观察进行分类(例如,使用 KNN http://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm)
作为替代方案,您可以考虑使用替代聚类技术,例如高斯混合:
http://en.wikipedia.org/wiki/Mixture_model
http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/mixture.html
使用它,您不仅可以获得每个集群的平均值,还可以获得方差。对于每个新的观察,您可以计算它属于每个集群的概率。该概率将考虑原始集群大小/形状。使用类型类型的“软”方法也更好,因为它可以告诉您每个新观察值属于每个集群的强度,并且您可以将观察值标记为离所有集群大于一定数量标准偏差的异常值.
【讨论】: