【问题标题】:SBT : Running Spark job on remote cluster from sbtSBT:从 sbt 在远程集群上运行 Spark 作业
【发布时间】:2017-02-25 15:49:59
【问题描述】:

我有一个用 Scala 编写的 spark-job(我们称之为 wordcount),我可以按照以下方式运行它

  • 在 sbt 内的本地 spark 实例上运行

    sbt> runMain WordCount [InputFile] [Otuputdir] local[*]

  • 在远程 spark 集群上运行 spark-submit jar

    sbt> 包

    $> spark-submit --master spark://192.168.1.1:7077 --class WordCount target/scala-2.10/wordcount_2.10-1.5.0-SNAPSHOT.jar [InputFile] [Otuputdir]

代码:

// get arguments
val inputFile = args(0)
val outputDir = args(1)
// if 3rd argument defined then use it
val conf = if ( args.length == 3 )  new SparkConf().setAppName("WordCount").setMaster(args(2)) else  new SparkConf().setAppName("WordCount") 
val sc = new SparkContext(conf)

如何从 SBT 在远程 spark 集群上运行此作业?

【问题讨论】:

    标签: scala apache-spark sbt


    【解决方案1】:

    有一个用于 spark-submit 的 sbt 插件。 https://github.com/saurfang/sbt-spark-submit

    【讨论】:

      猜你喜欢
      • 2013-12-13
      • 1970-01-01
      • 2017-11-20
      • 2018-08-22
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-05-30
      • 1970-01-01
      相关资源
      最近更新 更多