【发布时间】:2016-05-09 01:04:57
【问题描述】:
有没有一种有效的方法可以直接总结 spark RDD 中列中的值?我不想为此创建一个 SQL DataFrame。
我有一个 LabeledPoint 的 RDD,其中每个 LabeledPoint 使用稀疏向量表示。假设我对第一个特征的值的总和感兴趣。
以下代码对我不起作用:
//lp_RDD is RDD[LabeledPoint]
var total = 0.0
for(x <- lp_RDD){
total += x.features(0)
}
这个循环后totalAmt的值还是0。
【问题讨论】:
标签: scala apache-spark