【发布时间】:2016-06-24 20:31:07
【问题描述】:
我在 spark scala 中有一个很大的 rdd,其中每个元素都是数组中的数组。
val rdd = sc.parallelize[array1[array1_1[], array1_2[], ....array1_24]], .... , array240[array240_1[], array240_2[], ....array240_24]]
所有元素都是不同的,我应该对每个元素应用 k-means 算法。
但是,Spark 中的 k-means 仅适用于 RDD,而不适用于数组。
所以,我接下来做
for (i <= 0 to 240) {
val rdd = sc.parallelize[array1[array1_1[], array1_2[], ....array1_24]]]
但是太慢了……
我有来自 5 个大节点的集群,它们可以做更多...
如何在没有 for 循环的情况下解决我的问题?
【问题讨论】:
标签: scala apache-spark k-means apache-spark-mllib