【发布时间】:2017-11-22 20:28:31
【问题描述】:
我正在尝试在 AWS Data-pipeline 上运行 spark 步骤。我收到以下异常:-
amazonaws.datapipeline.taskrunner.TaskExecutionException:未能 完成 EMR 变换。在 amazonaws.datapipeline.activity.EmrActivity.runActivity(EmrActivity.java:67) 在 amazonaws.datapipeline.objects.AbstractActivity.run(AbstractActivity.java:16) 在 amazonaws.datapipeline.taskrunner.TaskPoller.executeRemoteRunner(TaskPoller.java:136) 在 amazonaws.datapipeline.taskrunner.TaskPoller.executeTask(TaskPoller.java:105) 在 amazonaws.datapipeline.taskrunner.TaskPoller$1.run(TaskPoller.java:81) 在 private.com.amazonaws.services.datapipeline.poller.PollWorker.executeWork(PollWorker.java:76) 在 private.com.amazonaws.services.datapipeline.poller.PollWorker.run(PollWorker.java:53) 在 java.lang.Thread.run(Thread.java:748) 引起: amazonaws.datapipeline.taskrunner.TaskExecutionException:EMR 作业 '@DefaultEmrActivity1_2017-11-20T12:13:08_Attempt=1' 与 jobFlowId 'j-2E7PU1OK3GIJI' 失败,状态为'FAILED',原因为'Cluster 完成最后一步后准备就绪。'。步 'df-0693981356F3KEDFQ6GG_@DefaultEmrActivity1_2017-11-20T12:13:08_Attempt=1' 处于“失败”状态,原因为“空” amazonaws.datapipeline.cluster.EmrUtil.runSteps(EmrUtil.java:286) 在 amazonaws.datapipeline.activity.EmrActivity.runActivity(EmrActivity.java:63) ... 7 更多
集群正在正确启动。
这是流水线的截图:-
我认为活动中的“步骤”存在一些问题。任何意见都会有所帮助。
【问题讨论】:
-
如果没有最小、完整和可验证的示例以及整个错误堆栈,这是无法挽救的。
-
我将上传整个错误堆栈。同时,1) 步骤中是否有任何错误,例如 spark-submit 命令?根据:-docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/…,我们应该使用逗号对吗? 2)我们可以使用 S3 作为输入吗?
-
您是否尝试过启动集群并手动提交类似的 Spark 步骤?跟踪没有暴露失败的原因:
Step 'df-0693981356F3KEDFQ6GG_@DefaultEmrActivity1_2017-11-20T12:13:08_Attempt=1' is in status 'FAILED' with reason 'null'。您可以访问 S3 上的日志吗?
标签: apache-spark amazon-emr amazon-data-pipeline