【问题标题】:EMR activity using data pipeline for spark job使用数据管道进行火花作业的 EMR 活动
【发布时间】:2017-08-13 23:33:54
【问题描述】:

我正在尝试在数据管道中为 Spark 作业运行 Jar 文件,但我不确定在 EMR 步骤中我究竟需要传递什么?

【问题讨论】:

    标签: emr amazon-data-pipeline


    【解决方案1】:

    EMR Step 是您描述要如何提交 spark jar 的地方。

    当您创建新的数据管道时,您可以选择“使用模板构建”选项,然后选择“在弹性 MapReduce 集群上运行作业”。

    现在您应该在 EmrActivity 中描述您要提交的步骤(如果需要,您也可以运行多个步骤)。

    您可以阅读此AWS EMR Spark Step Guide 以了解什么是步骤。简而言之,就是您描述如何提交 spark 作业的地方。

    请注意,尽管出于某种晦涩的原因,您需要在步骤中用“,”替换空格。这是我在 datapipeline 上运行的 spark 步骤的示例:

    command-runner.jar,spark-submit,--deploy-mode,cluster,--class,com.exelate.main.App,--master,yarn-cluster,--name,<spark job name>,--num-executors,1000,--driver-cores,2,--driver-memory,10g,--executor-memory,16g,--executor-cores,4,<jar location on s3>,<jar arguments>
    

    我留下了一些配置,以便您了解在哪里使用它们,并用 替换了一些配置,以便您可以使用自己的信息进行切换

    【讨论】:

    • 谢谢!它帮助我们为数据管道编写步骤。我们实际上有几个问题,我们的 EMR spark 实例与我们的工作不兼容。花了一些时间,但我们能够弄清楚。
    • 依赖项在 Spark 作业中是否正常工作?当我使用 CLI 创建步骤时,它不会等待作业完成并立即返回。 Data Pipeline 是否会监控作业直到完成?
    • 是的,它是一个管道,因此您可以管道事件。如果您将 emr 资源用于 EMR 活动,则管道也会在完成时终止它。但是测试这个真的很简单..试试看吧。
    猜你喜欢
    • 2017-09-30
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-12-11
    • 1970-01-01
    相关资源
    最近更新 更多