【发布时间】:2017-02-25 15:49:59
【问题描述】:
我有一个用 Scala 编写的 spark-job(我们称之为 wordcount),我可以按照以下方式运行它
-
在 sbt 内的本地 spark 实例上运行
sbt> runMain WordCount [InputFile] [Otuputdir] local[*]
-
在远程 spark 集群上运行 spark-submit jar
sbt> 包
$> spark-submit --master spark://192.168.1.1:7077 --class WordCount target/scala-2.10/wordcount_2.10-1.5.0-SNAPSHOT.jar [InputFile] [Otuputdir]
代码:
// get arguments
val inputFile = args(0)
val outputDir = args(1)
// if 3rd argument defined then use it
val conf = if ( args.length == 3 ) new SparkConf().setAppName("WordCount").setMaster(args(2)) else new SparkConf().setAppName("WordCount")
val sc = new SparkContext(conf)
如何从 SBT 在远程 spark 集群上运行此作业?
【问题讨论】:
标签: scala apache-spark sbt