使用随机key实现双重聚合

1、原理

2、使用场景
(1)groupByKey
(2)reduceByKey

比较适合使用这种方式;join,咱们通常不会这样来做,后面会讲三种,针对不同的join造成的数据倾斜的问题的解决方案。

第一轮聚合的时候,对key进行打散,将原先一样的key,变成不一样的key,相当于是将每个key分为多组;

先针对多个组,进行key的局部聚合;接着,再去除掉每个key的前缀,然后对所有的key,进行全局的聚合。

对groupByKey、reduceByKey造成的数据倾斜,有比较好的效果。

spark 大型项目实战(五十五):数据倾斜解决方案之使用随机key实现双重聚合

欢迎关注,更多福利

spark 大型项目实战(五十五):数据倾斜解决方案之使用随机key实现双重聚合

相关文章:

  • 2021-05-07
  • 2021-09-19
  • 2021-05-23
  • 2022-12-23
  • 2022-03-04
  • 2021-05-16
猜你喜欢
  • 2021-04-23
  • 2021-08-01
  • 2021-09-22
  • 2021-12-26
  • 2021-08-02
  • 2021-04-12
  • 2021-05-26
相关资源
相似解决方案