【发布时间】:2018-02-24 15:01:14
【问题描述】:
我正在尝试使用 Amazon Data-Pipeline 在 Amazon EMR 集群上运行 spark scala 应用程序。在 EMRActivity 中添加步骤如下:
command-runner.jar,spark-submit,--deploy-mode,cluster,--class,com.demo.GettingStarted,s3://myBucket/sampleApps/HelloWorld.jar
查看 EMR 日志后,该作业始终失败并显示以下堆栈跟踪:
线程“主”org.apache.spark.SparkException 中的异常:应用程序
application_1517065923932_0001 finished with failed status
at org.apache.spark.deploy.yarn.Client.run(Client.scala:1034)
at org.apache.spark.deploy.yarn.Client$.main(Client.scala:1081)
at org.apache.spark.deploy.yarn.Client.main(Client.scala)
此错误的可能原因是什么?
这是一个将 Hello World 打印到控制台的示例应用程序。
同样的工作也适用于 AWS EMR。
【问题讨论】:
标签: scala apache-spark amazon-emr amazon-data-pipeline