【发布时间】:2015-08-04 12:05:40
【问题描述】:
假设我们有一个包含 ID 的数据集“数据”,并且对于每个 ID,我们有许多“分数”。例如,对于 ID=1,我们的分数为 25,41,23,...,33。
对于用户 1,我想计算该用户得分的总和。在 sparkR 我这样做
s = filter(data, data$user==1)
ss = agg(s, summa = sum(s$score) )
现在“ss”给了我 ID=1 的“分数”总和。我想创建一个数据集,在其中获取所有 ID 的分数总和。
例如,在 R 中我会这样做
newdata=matrix()
for(i in 1: Number of ID's ) {
s = filter(data, data$user==i)
newdata[i,] = c(i ,agg(s, summa = sum(s$score)) )
}
但这在 sparkR 中不起作用。它说“向量分配中的类型/长度无效(S4/0)”。有什么好的方法吗?
【问题讨论】: