使用数据管道进行火花作业的 EMR 活动答案

【问题标题】：EMR activity using data pipeline for spark job使用数据管道进行火花作业的 EMR 活动
【发布时间】：2017-08-13 23:33:54
【问题描述】：

我正在尝试在数据管道中为 Spark 作业运行 Jar 文件，但我不确定在 EMR 步骤中我究竟需要传递什么？

【问题讨论】：

标签： emr amazon-data-pipeline

【解决方案1】：

EMR Step 是您描述要如何提交 spark jar 的地方。

当您创建新的数据管道时，您可以选择“使用模板构建”选项，然后选择“在弹性 MapReduce 集群上运行作业”。

现在您应该在 EmrActivity 中描述您要提交的步骤（如果需要，您也可以运行多个步骤）。

您可以阅读此AWS EMR Spark Step Guide 以了解什么是步骤。简而言之，就是您描述如何提交 spark 作业的地方。

请注意，尽管出于某种晦涩的原因，您需要在步骤中用“，”替换空格。这是我在 datapipeline 上运行的 spark 步骤的示例：

command-runner.jar,spark-submit,--deploy-mode,cluster,--class,com.exelate.main.App,--master,yarn-cluster,--name,<spark job name>,--num-executors,1000,--driver-cores,2,--driver-memory,10g,--executor-memory,16g,--executor-cores,4,<jar location on s3>,<jar arguments>

我留下了一些配置，以便您了解在哪里使用它们，并用替换了一些配置，以便您可以使用自己的信息进行切换

【讨论】：

谢谢！它帮助我们为数据管道编写步骤。我们实际上有几个问题，我们的 EMR spark 实例与我们的工作不兼容。花了一些时间，但我们能够弄清楚。
依赖项在 Spark 作业中是否正常工作？当我使用 CLI 创建步骤时，它不会等待作业完成并立即返回。 Data Pipeline 是否会监控作业直到完成？
是的，它是一个管道，因此您可以管道事件。如果您将 emr 资源用于 EMR 活动，则管道也会在完成时终止它。但是测试这个真的很简单..试试看吧。