【发布时间】:2019-11-07 23:50:10
【问题描述】:
我是新来的火花。我想从本地提交一个 Spark 作业到远程 EMR 集群。 我正在点击此处的链接来设置所有先决条件:https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/
命令如下:
spark-submit --class mymain --deploy-mode client --master yarn myjar.jar
问题:sparksession 创建无法在没有错误的情况下完成。似乎是访问问题。
从 aws 文档中,我们知道通过给 master 提供 yarn,yarn 使用我从 EMR 复制的配置文件来知道 master 和 slave(yarn-site.xml)在哪里。 由于我的 EMR 集群位于 VPC 中,需要特殊的 ssh 配置才能访问,我如何将此信息添加到 yarn 以便它可以访问远程集群并提交作业?
【问题讨论】:
标签: apache-spark hadoop-yarn amazon-emr spark-submit