【发布时间】:2019-03-09 17:32:21
【问题描述】:
我有一个 RDD[(Int, ListBuffer[Byte])] 并且我喜欢执行“wordcount”,但对于列表中的每个数字。 例如,RDD 是:
(31000,ListBuffer(1, 1, 0, 1, 0, 1, 1, 1, 1))
(21010,ListBuffer(0, 0, 0))
(23000,ListBuffer(1, 1, 1, 1, 1))
(01000,ListBuffer(1, 1))
(34000,ListBuffer(0))
我想得到这个:
(31000,(0,2),(1,7)) // this could be a Map[0=>2, 1=>7]
(21010,(0,3))
(23000,(1,5))
(01000,(1,2))
(34000,(0,3))
有什么指导吗?提前谢谢你
编辑:有人建议我的问题是重复的,但问题是建议的帖子只是一个列表,但我想申请一个 Pair (Int, List)。
【问题讨论】:
标签: scala apache-spark