网上已经有很多博客总结过会产生shuffle的算子,DAGScheduler根据 宽窄依赖/shuffle 来划分stage。那么怎么判定算子会shuffle呢。

org.apache.spark.rdd  OrderedRDDFunctions

通过这个类可以看出。

spark源码:怎么确定算子是否会shuffle

spark源码:怎么确定算子是否会shuffle

spark源码:怎么确定算子是否会shuffle

这些个算子会发生shuffle。 共性特征为 new shuffled rdd。

相关文章:

  • 2022-12-23
  • 2021-11-07
  • 2021-08-04
  • 2021-09-04
  • 2021-09-20
  • 2021-12-06
  • 2022-12-23
猜你喜欢
  • 2021-08-06
  • 2022-12-23
  • 2022-12-23
  • 2022-01-01
  • 2022-12-23
  • 2021-10-21
  • 2021-12-16
相关资源
相似解决方案