【发布时间】:2018-03-12 22:22:41
【问题描述】:
在我的项目中,我使用 k-means 对组之间的数据进行分类,但我在计算来自 Scikit-learn 的 k-means 时遇到了问题 - 它非常慢。我需要加强它。
我试过把n_jobs的号码改成-1,但是还是很慢!
有什么加快速度的建议吗?
【问题讨论】:
-
您正在处理什么样的数据?您需要提供更多细节,没有灵丹妙药,我怀疑问题在于 scikit-learn 的实现,而是 k-means 算法的根本低效。
-
约 3000 个数据点,17 维空间,k=400
-
是的,算法是
O(n^(dk+1)),其中n是观测数,d是维数,k是k -
您应该考虑将 3000 个点放入 400 个簇中是否真的有意义。每个集群平均只有 7.5 分。您可能需要更小的
k。
标签: python machine-learning scikit-learn k-means unsupervised-learning