【发布时间】:2018-03-19 17:18:37
【问题描述】:
我正在尝试调整 Spark 应用程序,以减少总体执行时间,但在 Stage 执行期间出现了奇怪的行为。
基本上只有 14/120 个任务需要大约 20 分钟才能完成,而其他任务则需要 4 或 5 分钟才能完成。
查看 Spark UI,分区似乎不错,我看到的唯一区别是 14 个任务的 GC 时间非常高。
我附上一张情况的图片。
【问题讨论】:
-
您的图像似乎没有显示单个任务的 GC 时间。您应该捕获其中一项慢速任务的 GC 日志并将其发布在此处。
-
对不起,我的错,我刚刚附上了另一张显示 GC Time 的图片
-
这并没有显示高 GC 时间
标签: performance apache-spark garbage-collection rdd