【发布时间】:2020-12-27 09:16:00
【问题描述】:
我正在使用 EMR 在 10 TB 数据集上运行 spark 作业。我正在使用 Spark 历史服务器来监控其进度。但是,当日志变得非常大时,spark 历史服务器和 EMR UI 都会停止更新。我的 EMR 作业是否仍在运行或已停止运行?
此外,当 spark 历史服务器停止崩溃时,我的所有 EC2 实例的 CPU 利用率都从 > 75% 变为 0%(它们随后又增加到
我的 EMR 工作有什么问题吗?当日志变得非常大时,有什么方法可以让 Spark 历史服务器继续工作?
谢谢。
【问题讨论】:
-
你应该考虑清理这里提到的一些旧日志 --> stackoverflow.com/questions/42817924/… ...