【问题标题】:submit spark job from local to emr ssh setup从本地提交 Spark 作业到 emr ssh 设置
【发布时间】:2019-11-07 23:50:10
【问题描述】:

我是新来的火花。我想从本地提交一个 Spark 作业到远程 EMR 集群。 我正在点击此处的链接来设置所有先决条件:https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/

命令如下:

spark-submit --class mymain --deploy-mode client --master yarn myjar.jar

问题:sparksession 创建无法在没有错误的情况下完成。似乎是访问问题。

从 aws 文档中,我们知道通过给 master 提供 yarn,yarn 使用我从 EMR 复制的配置文件来知道 master 和 slave(yarn-site.xml)在哪里。 由于我的 EMR 集群位于 VPC 中,需要特殊的 ssh 配置才能访问,我如何将此信息添加到 yarn 以便它可以访问远程集群并提交作业?

【问题讨论】:

    标签: apache-spark hadoop-yarn amazon-emr spark-submit


    【解决方案1】:

    我认为 aws 链接中提出的解决方案更像是 - 创建具有所有依赖项的本地 spark 设置。
    如果您不想进行本地火花设置,我建议您使用更简单的方法:
    1. Livy:为此,您的 emr 设置应安装 livy。检查thisthisthis,你应该能够从this推断
    2。 EMR ssh:这要求您在本地安装 aws-cli,在创建 emr 集群时使用集群 ID 和 pem 文件。检查this
    例如。 aws emr ssh --cluster-id j-3SD91U2E1L2QX --key-pair-file ~/.ssh/mykey.pem --command 'your-spark-submit-command'(虽然这会在控制台上打印命令输出)

    【讨论】:

      猜你喜欢
      • 2019-07-03
      • 2019-04-05
      • 2017-08-28
      • 2019-05-30
      • 2018-11-13
      • 1970-01-01
      • 1970-01-01
      • 2016-12-21
      • 2020-11-08
      相关资源
      最近更新 更多