Example


spark数据倾斜现象
- 单个Executor执行时间久
- OOM
- Executor
- Driver
- Timeout
数据倾斜原因

发现数据倾斜
- 使用sample算子进行抽样
- 使用countByValue对抽样数据进行聚合计算
- 取出前N观察
数据倾斜 Solution 1 – 使用reduceByKey
- groupByKey转换为reduceByKey
- reduceByKey可以在Map端合并
- 类似于MapReduce中的Combiner
数据倾斜 Solution 2 – 两阶段聚合

数据倾斜 Solution 3 – 扩增数据
- 大表随机添加N种前缀,小表扩增N倍
数据倾斜 Solution 4 – MapSideJoin

相关文章:
-
2021-05-20
-
2021-07-31
-
2021-09-27
-
2022-01-17
-
2021-04-29
-
2021-11-06
-
2021-09-22
猜你喜欢
-
2021-08-19
-
2021-08-06
-
2021-08-02
-
2021-12-26
-
2021-12-23
-
2021-05-24
-
2021-04-01
相关资源
-
下载
2021-06-06
-
下载
2022-12-17
-
下载
2022-12-31