Spark UI中的长时间调度程序延迟答案

【问题标题】：long scheduler Delay in Spark UISpark UI中的长时间调度程序延迟
【发布时间】：2019-07-05 16:12:35
【问题描述】：

我正在纱线上的 2.3.0 集群上运行 pyspark 作业。我看到所有阶段都有很长的调度程序延迟。但是 - 这只是最大时间，第 75 个百分位数是 28 毫秒.... 所有其他时间指标都非常低（GC 时间、任务反序列化等）几乎没有随机写入大小。主要是节点本地、进程本地和机架本地之间的位置变化。如此长的调度程序延迟时间可能是什么原因？是纱线还是只是缺少运行任务的资源？增加/减少分区会帮助解决这个问题吗？

【问题讨论】：

标签： apache-spark pyspark hadoop-yarn

【解决方案1】：

如果有人遇到同样的问题，请回答我自己的问题 - 似乎与导致长时间延迟的倾斜数据有关。这是由于使用合并而不是对数据重新分区造成的，这导致数据的划分不均匀。最重要的是，我还缓存了分区后的数据帧，所以处理的运行在本地（process_local）而不是 node_local 和 rack_locak。

【讨论】：