spark大多数算子使用的都是默认分区器HashPartitioner,HashPartitioner会对数据的key进行 key.hascode%numpartitions 计算,得到的数值会放到对应的分区中,这样能较为平衡的分配数据到partition。
RangePartitioner:
它是在排序算子中会用到的分区器,比如sortbykey、sortby、orderby等。该分区器先对输入的数据的key做采样,来估算Key的分布,然后按照指定的排序切分range,尽量让每个partition对应的range里的key分布均匀。
sortBykey作为spark中常用的分布式排序算子,使用的就是RangePartitioner,通过切分range,各partitioner之间是有序的,各个partition内部再进行排序,从而达到了整体数据的有序性。
如下图:
spark的分区器hashpartitioner、RangePartitioner,分布式排序原理

相关文章:

  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-11-30
  • 2021-11-18
  • 2021-07-06
  • 2022-12-23
猜你喜欢
  • 2021-04-24
  • 2021-11-20
  • 2021-04-09
  • 2021-11-18
  • 2022-01-10
  • 2022-12-23
相关资源
相似解决方案