【问题标题】:AWS EMR spark-scala job failing with AWS Datapipeline: Exception in thread "main" org.apache.spark.SparkExceptionAWS EMR spark-scala 作业因 AWS Datapipeline 失败:线程“主”org.apache.spark.SparkException 中的异常
【发布时间】:2018-02-24 15:01:14
【问题描述】:

我正在尝试使用 Amazon Data-Pipeline 在 Amazon EMR 集群上运行 spark scala 应用程序。在 EMRActivity 中添加步骤如下:

command-runner.jar,spark-submit,--deploy-mode,cluster,--class,com.demo.GettingStarted,s3://myBucket/sampleApps/HelloWorld.jar

查看 EMR 日志后,该作业始终失败并显示以下堆栈跟踪:

线程“主”org.apache.spark.SparkException 中的异常:应用程序

application_1517065923932_0001 finished with failed status
    at org.apache.spark.deploy.yarn.Client.run(Client.scala:1034)
    at org.apache.spark.deploy.yarn.Client$.main(Client.scala:1081)
    at org.apache.spark.deploy.yarn.Client.main(Client.scala)

此错误的可能原因是什么?

这是一个将 Hello World 打印到控制台的示例应用程序。

同样的工作也适用于 AWS EMR。

【问题讨论】:

    标签: scala apache-spark amazon-emr amazon-data-pipeline


    【解决方案1】:

    能否请您检查资源管理器中的应用程序日志。如果您在 EMR 中启用 Hue 服务,您可以从 UI 中查看日志。在 Hue 中,转到工作流 --> DashBoard -> 工作流并查看作业和容器日志。我怀疑 Oozie 可能无法解析 spark-defaults.conf 参数。

    当我在 spark-defaults.conf 中配置以下属性时,如果在 oozie 版本 4.3.0 中包含空格,Oozie 将无法解析配置。

    spark.driver.extraJavaOptions -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70 -XX:MaxHeapFreeRatio=70 -XX:+CMSClassUnloadingEnabled -XX:OnOutOfMemoryError='kill -9 %p' spark.dynamicAllocation.enabled 真 spark.executor.extraJavaOptions -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70 -XX:MaxHeapFreeRatio=70 -XX:+CMSClassUnloadingEnabled -XX:OnOutOfMemoryError='kill -9 %p'

    【讨论】:

      【解决方案2】:

      我认为其中一个原因是您应该将 jar 的路径指定为{input.directoryPath}/HelloWorld.jar,其中 input.directoryPath 来自使用 S3DataNode。

      如果你能找到确切的日志就更好了。

      要查看驱动程序/执行程序生成的日志,请访问:pipelineLogUri->EmrClusterId->{latest_run}->containers->application->container。最后一步,即容器,对于驱动程序日志,选择具有 id:-1 的容器,其余日志(2,3,4...)将是通过执行器实例生成的日志。

      【讨论】:

        猜你喜欢
        • 2018-03-18
        • 1970-01-01
        • 2022-08-13
        • 2021-08-30
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2018-11-13
        • 2015-10-25
        相关资源
        最近更新 更多