【发布时间】:2015-05-20 00:12:03
【问题描述】:
我是 Spark 新手,我正在尝试在 Spark 上测试一些东西,看看我使用的数据大小是否有任何性能提升。
我的 rdd 中的每个对象都包含时间、id 和位置。
我想比较具有相同 id 的相同时间组的位置。因此,我将首先运行以下命令以按 id 分组
grouped_rdd = rdd.map(lambda x: (x.id, [x])).groupByKey()
然后我想把它分解成每个对象的时间。
有什么建议吗?谢谢!
【问题讨论】:
标签: apache-spark rdd