spark的分区器hashpartitioner、RangePartitioner，分布式排序原理

spark大多数算子使用的都是默认分区器HashPartitioner，HashPartitioner会对数据的key进行 key.hascode%numpartitions 计算,得到的数值会放到对应的分区中，这样能较为平衡的分配数据到partition。
RangePartitioner：
它是在排序算子中会用到的分区器，比如sortbykey、sortby、orderby等。该分区器先对输入的数据的key做采样，来估算Key的分布，然后按照指定的排序切分range，尽量让每个partition对应的range里的key分布均匀。
sortBykey作为spark中常用的分布式排序算子，使用的就是RangePartitioner，通过切分range，各partitioner之间是有序的，各个partition内部再进行排序，从而达到了整体数据的有序性。
如下图：
spark的分区器hashpartitioner、RangePartitioner，分布式排序原理