【问题标题】:EMR cluster automatically terminating after few daysEMR 集群在几天后自动终止
【发布时间】:2020-08-12 12:08:44
【问题描述】:

我有一个 AWS EMR 集群正在执行 spark 流作业。它从 Kinesis 流中获取流数据并对其进行处理。它可以正常工作几天,但在 12-15 天后集群会自动终止。我签入了事件选项卡,它显示 集群因 STEP_FAILURE 错误而终止。

有人知道为什么步骤成功运行几天后会出现步骤失败吗?

【问题讨论】:

  • 请查看步骤标签下Log files列中的日志。检查 stderr 和 stdout 以找出步骤失败的原因。它应该可以帮助您了解该步骤失败的原因。如果出现问题,步骤可能随时失败。您将能够在日志中找到失败的原因。
  • 谢谢,我检查了日志文件,得到了步骤失败的原因。
  • 酷。那很好。快乐学习:)

标签: pyspark amazon-emr amazon-kinesis


【解决方案1】:

转到 EMR 控制台,然后检查步骤选项。如果设置如下:

Action on failure:Terminate cluster

那么当步骤失败时集群将被终止。

【讨论】:

  • 是的,它说步骤失败。但是如果一个步骤可以正常工作几天,怎么会失败呢?
  • 检查您的日志并找出原因。无论发生什么,您都应该捕获异常。
  • 谢谢,我查了日志,找到了步骤失败的原因。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2015-10-04
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-07-13
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多