【问题标题】:EMR bootstrap issueEMR 引导问题
【发布时间】:2020-11-11 05:53:07
【问题描述】:

我们已经更新了 emr-5.30.0 的 emr 版本。从那以后,我们在引导程序中遇到错误。 “因引导错误而终止”

如果我将版本改回 emr-5.29.0,它可以正常工作。我无法找到引导错误的原因。

我们正在从阶跃函数创建 EMR 集群。

我们已将版本 emr-5.29.0 更改为 emr-5.30.0,因为我们正在添加托管自动缩放​​,它仅在 5.29.0 之后支持

我检查了日志,但找不到任何正确的错误消息。请提出一些解决此问题的建议。

【问题讨论】:

  • 随着 EMR 版本 5.30 的升级,平台和服务(Python、Hue、Oozie、HBase、Spark)的许多重大升级可能会导致您的自定义引导脚本出现问题。

标签: amazon-web-services apache-spark amazon-emr


【解决方案1】:

EMR 版本改变了很多东西,包括您选择包含的不同应用程序,例如在emr 5.29.0 中提到的@Snighdhajyoti,spark 的版本为2.4.4,而在emr 5.30.0 中,spark 的版本为2.4.5。您可以看到应用程序更改的基本列表here

但关键是,您可能会在引导 scipt 中手动安装或配置某些应用程序或程序包,这可能与其他更新的程序包发生冲突。

对于日志,引导日志不会出现在集群日志中,而是在stderr logs for your bootstrap action 中,如下所示

s3://doc-example-bucket/cluster-id/node/instance-id/bootstrap-actions/

This link 提供了更多指导,例如如何挖掘错误

如果您在查看脚本后无法确定脚本失败的原因 stderr 日志,修改您的脚本以提供额外的调试 信息。例如,在 bash 脚本中设置 -ex 参数。 这允许您在引导操作中查看 bash 脚本流 日志文件。

注意:如果失败的引导操作不是您设置的引导操作 已创建(例如,如果您创建了六个引导操作并且 错误消息是“引导操作 7 失败,退出代码非零”), 它表示 Amazon EMR 无法安装应用程序或启动 服务。这个问题很少见。要解决此问题,请尝试启动 再次集群。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2020-09-08
    • 2016-12-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-06-19
    相关资源
    最近更新 更多