【发布时间】:2015-02-19 00:46:16
【问题描述】:
我正在浏览我找到的算法列表,并尝试实现它们以用于学习目的。现在我正在编写 K 均值编码,并且对以下内容感到困惑。
怎么知道原始数据集中有多少簇
除了所有质心必须不同之外,在选择初始集群质心时,我是否遵循任何特定格式?例如,如果我选择不同但靠近的聚类质心,算法会收敛吗?
任何建议将不胜感激
谢谢
【问题讨论】:
-
我认为,如果人们能解释为什么该帖子被否决,那么我可以尽我最大的努力改善当前和未来的问题
-
可能是因为how to determine the number of clusters 的问题在这里和文献中都是asked several times。因为这个,我会投票关闭作为重复。
-
@Anony-Mousse Afaik。关闭 -> 重复是处理它的正确方法。
-
@Anony-Mousse 引用的问题特别提到了 R。接受的答案是通用的并总结了常用方法,还给出了 R 代码。但是,该链接中似乎没有询问或回答 OP 的第二个问题。
-
由于“过于宽泛”而关闭,我建议将其更多地集中在第二个主题上,然后要求重新打开它。至于第二部分,很容易看出 k-means 总是收敛的(因为存在有限的数量或可能的状态,所以不可能有无限的改进)。如果起点不好,可能需要更长的时间,然后收敛到更差的解决方案。
标签: algorithm machine-learning cluster-analysis k-means