【发布时间】:2016-07-20 13:46:12
【问题描述】:
我有一个包含数百万行的数据框df。我使用ddply 和用户定义的函数udf。
res <- ddply(df, c("id"),function(x){udf(x)}
这工作得很好,但它非常慢(大约需要 4 个小时)我猜是因为 udf。它检查了很多案例。
我想在 sparkR 中运行相同的功能。 Spark 集成在 R 环境中。我可以在 sparkR 中进行基本操作,但找不到可以替换 ddply 的函数。有人有想法吗?
【问题讨论】: