【发布时间】:2018-01-03 19:53:09
【问题描述】:
我有以下 Spark 流式传输示例:
val conf = new SparkConf().setAppName("Name").setMaster("local")
val sc = new SparkContext(conf)
val ssc = new StreamingContext(sc, Seconds(2))
val directoryStream = ssc.textFileStream("""file:///C:/Users/something/something""")
directoryStream.foreachRDD(file => {
println(file.count())
})
ssc.start()
ssc.awaitTermination()
即使文件夹是空的,它也会每 2 秒打印一次 0,就像文件夹中有一个空文件一样。我希望它仅在文件夹中存在新文件时进入foreachRDD。是不是我做错了什么?
我正在使用 Spark 1.6 和 Scala 2.10.7。
【问题讨论】:
标签: scala apache-spark spark-streaming