【发布时间】:2016-07-09 20:12:01
【问题描述】:
据我了解,run 参数是重复 KMeans 以获得最佳集群的次数,maxIterations 是每个 run 中的迭代次数,是否正确?如果有 5000 个数据点,它们的最佳值是多少?
【问题讨论】:
标签: machine-learning k-means apache-spark-mllib
据我了解,run 参数是重复 KMeans 以获得最佳集群的次数,maxIterations 是每个 run 中的迭代次数,是否正确?如果有 5000 个数据点,它们的最佳值是多少?
【问题讨论】:
标签: machine-learning k-means apache-spark-mllib
在我错过阅读您的问题时编辑了我的答案。
据我了解,run 是重复 KMeans 以获得最佳集群的次数,而 maxIterations 表示每次运行中的迭代次数,是否正确
是的,没错。通常你只运行一次 k-means。最大迭代次数是允许发生 k-means 质心更新循环的最大迭代次数。
Spark 的实现确实支持 runs 中描述的内容,即。您想运行该算法多少次。它通常没有必要。特别是因为优化 k-means 指标并不一定会优化您的实际目标。
如果有 5000 个数据点,它们的最佳值是多少?
你不应该问这样的问题,这些问题总是取决于问题和数据。您应该努力更好地理解您正在使用的工具以及它们的含义以及如何使用它们进行迭代。这将帮助您避免将自己置于您想提出此类问题的情况,或者如果有必要 - 还需要什么其他上下文(只是数据的数量肯定不足以进行任何有意义的讨论)。
【讨论】: