【问题标题】:Spark rdd unique values across a paired rddSpark rdd 跨配对 rdd 的唯一值
【发布时间】:2016-05-29 21:32:32
【问题描述】:

我有一个这种数据类型的 Spark RDD:RDD[(Int, Array[Int])])

该 RDD 的示例值为:

100, 数组(1,2,3,4,5)

200,数组(1,2,50,20)

300, 数组(30,2,400,1)

我想获取所有 Array 元素中的所有唯一值 这个RDD的我不关心密钥,只想得到所有的 独特的价值观。所以上述样本的结果是 (1,2,3,4,5,20,30,50,400)。

什么是有效的方法。

【问题讨论】:

    标签: scala apache-spark


    【解决方案1】:

    我认为这应该可行:

    val result = rdd.flatMap(_._2).distinct
    

    如果你想要RDD 中的结果,或者

    val result = rdd.flatMap(_._2).distinct.collect
    

    如果您希望将结果保存在本地集合中。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2016-12-23
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-03-13
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多