【问题标题】:Spark history server stops working in EMR when logs get large当日志变大时,Spark 历史服务器在 EMR 中停止工作
【发布时间】:2020-12-27 09:16:00
【问题描述】:

我正在使用 EMR 在 10 TB 数据集上运行 spark 作业。我正在使用 Spark 历史服务器来监控其进度。但是,当日志变得非常大时,spark 历史服务器和 EMR UI 都会停止更新。我的 EMR 作业是否仍在运行或已停止运行?

此外,当 spark 历史服务器停止崩溃时,我的所有 EC2 实例的 CPU 利用率都从 > 75% 变为 0%(它们随后又增加到

我的 EMR 工作有什么问题吗?当日志变得非常大时,有什么方法可以让 Spark 历史服务器继续工作?

谢谢。

【问题讨论】:

标签: apache-spark amazon-emr


【解决方案1】:

是的,这可能是由于大量的日志历史记录而发生的,您可以尝试安排/设置自动删除。

对于历史日志清理,您可以设置以下属性以在spark-defaults.conf文件中启用设置自动清理,并重新启动服务器

spark.history.fs.cleaner.enabled true
spark.history.fs.cleaner.maxAge  12h
spark.history.fs.cleaner.interval 1h

【讨论】:

  • 对于那些遇到同样情况的人,我的 EMR 作业确实完成了,我只是无法使用 Spark 历史服务器来监控他们的进度。看起来这些是我需要的设置。谢谢!
【解决方案2】:

将所有日志外部化到 S3 存储桶中

如果您有兴趣,还有一些提示:

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-07-28
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多