【发布时间】:2014-07-10 09:14:21
【问题描述】:
我很高兴 HDInsight 切换到 Hadoop 版本 2,它通过 YARN 支持 Apache Spark。对于我想要执行的任务,Apache Spark 比 MapReduce 更适合并行编程范例。
但是,我找不到任何有关如何将 Apache Spark 作业远程作业提交到我的 HDInsight 群集的文档。对于标准 MapReduce 作业的远程作业提交,我知道有几个 REST 端点,例如 Templeton 和 Oozie。但据我所知,通过 Templeton 运行 Spark 作业是不可能的。我确实发现可以将 Spark 作业合并到 Oozie 中,但我读到这是一件非常乏味的事情,而且我读过一些关于在这种情况下工作失败检测不起作用的报告。
可能必须有更合适的方式来提交 Spark 作业。有谁知道如何将 Apache Spark 作业远程提交到 HDInsight?
非常感谢!
【问题讨论】:
-
困难的话题,您需要一种将 scala 获取到从节点的方法,这在开始工作时不太可能有效。正如您已经发现的那样,您不能从外部提交东西,您必须 RDP 到头节点并从那里提交。
-
感谢您的评论。我尝试通过 RDP 从头节点提交。当我在头节点中搜索用于运行 Spark 作业的 Spark jar 文件时,我什么也没找到。搜索 Tez,其他新的 YARN 计算模型之一,我确实找到了一个 jar 文件,我还可以使用这个 jar 文件将示例 Tez 作业提交到集群。头节点上没有 Spark 是否可能表明集群根本不支持 Spark?
-
看起来您可以在安装 HDinsight 集群时使用 power shell 脚本执行此操作。 blogs.technet.com/b/dataplatforminsider/archive/2014/11/17/…
-
太棒了!很高兴知道 Azure 上对 Spark 的支持有所改进!
标签: azure apache-spark azure-hdinsight