【发布时间】:2017-03-24 23:57:01
【问题描述】:
我很难从 Spark UI 处理这些信息。如图所示,具有最低 spark shuffle 读取大小/记录的执行程序需要最长时间来读取 shuffle 块。我不明白这是代码问题还是数据节点问题。
【问题讨论】:
标签: apache-spark pyspark shuffle
我很难从 Spark UI 处理这些信息。如图所示,具有最低 spark shuffle 读取大小/记录的执行程序需要最长时间来读取 shuffle 块。我不明白这是代码问题还是数据节点问题。
【问题讨论】:
标签: apache-spark pyspark shuffle
可能不仅是shuffle read size的原因,影响shuffle时间的因素还有很多,比如partition的数量,可以尝试修改shuffle的配置参数。 shuffle-behavior
【讨论】: