【发布时间】:2017-09-12 17:40:16
【问题描述】:
目前我试图找到以下问题的解决方案:
经过一些处理后,我尝试将键值 RDD 中某个键的值数量限制为某个数字(例如 200)。
我最初的解决方案是做一个 groupByKey,将具有相同键的所有元素放入一个分区,然后是一个 flatMapValues,我将只取前 200 个可迭代的元素。
虽然这个解决方案对于较小的数据非常有效,但它似乎效率很低,并且在我想要处理较大的数据时不起作用。
有人知道如何更有效地实现这一目标?
提前致谢!
【问题讨论】:
标签: scala apache-spark