【发布时间】:2017-08-13 23:33:54
【问题描述】:
我正在尝试在数据管道中为 Spark 作业运行 Jar 文件,但我不确定在 EMR 步骤中我究竟需要传递什么?
【问题讨论】:
我正在尝试在数据管道中为 Spark 作业运行 Jar 文件,但我不确定在 EMR 步骤中我究竟需要传递什么?
【问题讨论】:
EMR Step 是您描述要如何提交 spark jar 的地方。
当您创建新的数据管道时,您可以选择“使用模板构建”选项,然后选择“在弹性 MapReduce 集群上运行作业”。
现在您应该在 EmrActivity 中描述您要提交的步骤(如果需要,您也可以运行多个步骤)。
您可以阅读此AWS EMR Spark Step Guide 以了解什么是步骤。简而言之,就是您描述如何提交 spark 作业的地方。
请注意,尽管出于某种晦涩的原因,您需要在步骤中用“,”替换空格。这是我在 datapipeline 上运行的 spark 步骤的示例:
command-runner.jar,spark-submit,--deploy-mode,cluster,--class,com.exelate.main.App,--master,yarn-cluster,--name,<spark job name>,--num-executors,1000,--driver-cores,2,--driver-memory,10g,--executor-memory,16g,--executor-cores,4,<jar location on s3>,<jar arguments>
我留下了一些配置,以便您了解在哪里使用它们,并用 替换了一些配置,以便您可以使用自己的信息进行切换
【讨论】: