【发布时间】:2020-08-12 12:08:44
【问题描述】:
我有一个 AWS EMR 集群正在执行 spark 流作业。它从 Kinesis 流中获取流数据并对其进行处理。它可以正常工作几天,但在 12-15 天后集群会自动终止。我签入了事件选项卡,它显示 集群因 STEP_FAILURE 错误而终止。
有人知道为什么步骤成功运行几天后会出现步骤失败吗?
【问题讨论】:
-
请查看步骤标签下
Log files列中的日志。检查 stderr 和 stdout 以找出步骤失败的原因。它应该可以帮助您了解该步骤失败的原因。如果出现问题,步骤可能随时失败。您将能够在日志中找到失败的原因。 -
谢谢,我检查了日志文件,得到了步骤失败的原因。
-
酷。那很好。快乐学习:)
标签: pyspark amazon-emr amazon-kinesis