【问题标题】:Spark Stage performance, found GC Time very high just for few tasksSpark Stage 性能,发现 GC Time 非常高,仅用于少数任务
【发布时间】:2018-03-19 17:18:37
【问题描述】:

我正在尝试调整 Spark 应用程序,以减少总体执行时间,但在 Stage 执行期间出现了奇怪的行为。

基本上只有 14/120 个任务需要大约 20 分钟才能完成,而其他任务则需要 4 或 5 分钟才能完成。

查看 Spark UI,分区似乎不错,我看到的唯一区别是 14 个任务的 GC 时间非常高。

我附上一张情况的图片。

您对找到性能解决方案有任何想法吗?

【问题讨论】:

  • 您的图像似乎没有显示单个任务的 GC 时间。您应该捕获其中一项慢速任务的 GC 日志并将其发布在此处。
  • 对不起,我的错,我刚刚附上了另一张显示 GC Time 的图片
  • 这并没有显示高 GC 时间

标签: performance apache-spark garbage-collection rdd


【解决方案1】:

我遇到了类似的问题,可以通过使用 Parallel GC 而不是 G1GC 来解决它。您可以在提交请求中将以下选项添加到执行程序的附加 Java 选项中

-XX:+UseParallelGC -XX:+UseParallelOldGC

【讨论】:

  • -XX:+UseParallelOldGC 自动添加-XX:+UseParallelGC
猜你喜欢
  • 2018-07-23
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2023-03-28
  • 2016-07-25
  • 2013-09-16
  • 2017-04-15
相关资源
最近更新 更多