关于聚类方法的问题答案

【问题标题】：questions on clustering methods关于聚类方法的问题
【发布时间】：2011-05-05 03:46:11
【问题描述】：

最近我开始研究数据挖掘中的聚类，并研究了顺序聚类和层次聚类以及 k-means。

我还读到了一个将k-means与其他两种聚类技术区分开来的说法，说k-means在处理名义属性方面不是很好，但是文中没有解释这一点。到目前为止，唯一的我可以看到的不同之处在于，对于 K-means，我们会提前知道我们需要精确的 K 个集群，而我们不知道其他两种聚类方法需要多少个集群。

那么任何人都可以在这里给我一些关于为什么存在这样的陈述的想法，即，k-means 在处理名义属性的示例时会出现这个问题，有没有办法克服这个问题？

提前致谢。

【问题讨论】：

【解决方案1】：

k-means 算法通过取集群中所有点的平均值来计算集群质心。如果参数是标称的，则不能取平均值。

有时名义值可以按某种顺序排列，然后映射到实际值。例如，一周中的几天可以映射到范围 [1.0 - 7.0]，但有时这又是不可能的，例如具有值 [Windows、Linux、OSX] 的属性。

【讨论】：