【发布时间】:2017-07-07 15:13:27
【问题描述】:
我目前正在使用 IntelliJ IDE 在 Scala 中开发 Spark。执行程序时我可以访问 Web UI,但之后我无法访问历史服务器。
任何帮助将不胜感激,顺便说一句,我正在使用 Windows。 我还在 C:/tmp/spark-events 创建了一个日志文件夹,并以这种方式编辑了 spark-defaults.conf:
# Example:
# spark.master spark://master:7077
# spark.eventLog.enabled true
# spark.eventLog.dir hdfs://namenode:8021/directory
# spark.serializer org.apache.spark.serializer.KryoSerializer
# spark.driver.memory 5g
# spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"
-Dspark.eventLog.enabled true
-Dspark.history.fs.logDirectory file:///C:/tmp/spark-events
-Dspark.eventLog.dir file:///C:/tmp/spark-events
但执行后我没有看到任何日志
更新 1:看到本教程 https://medium.com/@eyaldahari/how-to-run-spark-history-server-on-windows-52cde350de07 后,我现在可以访问历史服务器。但是它是空的,并且日志不存在...
更新 2:我现在非常接近,如果我在控制台中启动 spark-shell,日志和历史记录会工作,但是当我在 IDE 中使用这个程序时,它不会写入任何日志。
这是我的代码
object SimpleScalaSpark {
def main(args: Array[String]) {
val logFile = "/Users/me/README.md" // Should be some file on your system
val conf = new SparkConf().setAppName("Simple Application").setMaster("local[*]")
val sc = new SparkContext(conf)
val logData = sc.textFile(logFile, 2).cache()
val numAs = logData.filter(line => line.contains("a")).count()
val numBs = logData.filter(line => line.contains("b")).count()
println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
}
}
【问题讨论】:
-
您是否启动了历史服务器 Web 前端 (spark.apache.org/docs/latest/…)?
-
建议不要在 tmp 中创建 spark-events 目录,系统每次重启都会删除该目录。
-
感谢尚卡尔的建议。不,Raphael,我在 windows 下,我无法运行 .sh...
-
更新了我的问题
标签: scala apache-spark logging intellij-idea