rdd=sc.paralelize([1,2,3,4,5])
#查看分区数
rdd.getNumPartitions()
输出:4
#数据按照分区形式打印 rd.glom().collect()
输出:[[1],[2],[3],[4,5]]

1、map和flatMap

pyspark之常用算子

2、reduce、fold、aggregate

(1)reduce

pyspark之常用算子

这里是两种方式,输出是:15

(2)fold

pyspark之常用算子

x:初始聚合值,y:当前元素,zero的值就是初始聚合值,初始聚合值的类型决定了最后返回的类型。

最终输出:13 

(3) aggregate

pyspark之常用算子

第二行输出:[[2,4],[6,1]]

最后输出:13

3、filter, distinct

pyspark之常用算子

第二行结果:[1,2,3,2,3,4,3,4,5,4,5,6,5,6,7] 

第四行结果:[2,2,4,4,6,6]

第五行结果:[1,2,3,4,5,6,7]

4、交集insersection、并集union、排序sortBy

pyspark之常用算子

5、PairRDD的算子

groupByKey、reduceByKey、aggregateByKey

pyspark之常用算子

pyspark之常用算子

pyspark之常用算子

pyspark之常用算子

pyspark之常用算子

reduceByKeyLocally:

pyspark之常用算子

返回的就不是rdd格式的了,返回一个字典。

 

相关文章:

  • 2022-01-29
  • 2022-01-21
  • 2021-12-20
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
猜你喜欢
  • 2022-12-23
  • 2022-12-23
  • 2021-07-13
  • 2021-07-11
  • 2021-06-02
  • 2022-12-23
  • 2022-12-23
相关资源
相似解决方案