【发布时间】:2018-09-03 18:20:29
【问题描述】:
我在本地机器上运行这段代码:
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
object SimpleApp {
def main(args: Array[String]) {
val logFile = "/Users/username/Spark/README.md"
val conf = new SparkConf().setAppName("Simple Application")
val sc = new SparkContext(conf)
val logData = sc.textFile(logFile, 2).cache()
val numAs = logData.filter(line => line.contains("a")).count()
val numBs = logData.filter(line => line.contains("b")).count()
println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
}
}
我想运行该程序,但在不同的文件上运行它——它目前只在 README.md 上运行。运行 Spark 时如何传递另一个文件的文件路径(或与此相关的任何其他参数?)。例如,我想将contains("a") 更改为另一个字母。
我让程序运行:
$ YOUR_SPARK_HOME/bin/spark-submit \
--class "SimpleApp" \
--master local[4] \
target/scala-2.10/simple-project_2.10-1.0.jar
谢谢!
【问题讨论】:
标签: scala apache-spark