【问题标题】:How to submit job(jar) to the Azure Spark cluster through commandline interface?如何通过命令行界面提交作业(jar)到 Azure Spark 集群?
【发布时间】:2017-03-14 01:46:27
【问题描述】:

我是 HDInsight Spark 的新手,我正在尝试运行一个用例来了解 Azure Spark 群集中的工作原理。这是我到目前为止所做的。

  1. 能够创建天蓝色火花簇。

  2. 按照链接中所述的步骤创建 jar:create standalone scala application to run on HDInsight Spark cluster。我使用了与链接中给出的相同的 scala 代码。

  3. ssh 进入头节点

  4. 使用链接将 jar 上传到 blob 存储:using azure CLI with azure storage

  5. 将 zip 复制到机器 hadoop fs -copyToLocal

我已检查 jar 是否已上传到头节点(机器)。 我想运行那个 jar 并得到链接中给出的结果 上述第 2 点。 下一步会是什么?如何使用命令行界面提交 Spark 作业并获取结果?

【问题讨论】:

    标签: azure apache-spark azure-hdinsight azure-cli


    【解决方案1】:

    例如,考虑到您是为程序 submit.jar 创建的 jar。为了将其提交到具有依赖关系的集群,您可以使用以下语法。

    spark-submit --master yarn --deploy-mode cluster --packages "com.microsoft.azure:azure-eventhubs-spark_2.11:2.2.5" --class com.ex.abc.MainMethod "wasb://space-hdfs@yourblob.blob.core.windows.net/xx/xx/submit.jar" "param1.json" "param2"
    

    这里 --packages :是包含对你程序的依赖,你可以使用 --jars 选项,然后是 jar 路径。 --jars "path/to/dependency/abc.jar"

    --class : 程序的主要方法 之后为您的程序 jar 指定路径。 如上所示,您可以根据需要传递参数

    【讨论】:

      【解决方案2】:

      提交 spark jar 的几个选项:

      1) 如果你想在头节点上提交作业,你可以使用 spark-submit 见Apache submit jar documentation

      2) 一个更简单的替代方法是在将 jar 上传到 wasb 存储后通过 livy 提交 spark jar。 见submit via livy doc。如果你这样做,你可以跳过第 5 步。

      【讨论】:

      • 2) 根本不工作。微软真的应该让它的教程有意义。
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-05-05
      • 1970-01-01
      • 1970-01-01
      • 2015-08-20
      • 2019-05-30
      • 1970-01-01
      相关资源
      最近更新 更多