【发布时间】:2015-11-10 16:51:19
【问题描述】:
我对 Spark 有相当多的经验。但是,我是第一次学习 Spark 流,发现它很难理解。很难理解应用程序的流程。例如,对于以下网站上给出的示例
http://ampcamp.berkeley.edu/3/exercises/realtime-processing-with-spark-streaming.html
第 3 部分的代码。进一步的练习,我们有
val words = statuses.flatMap(status => status.split(" "))
val hashtags = words.filter(word => word.startsWith("#"))
val counts = hashtags.map(tag => (tag, 1))
.reduceByKeyAndWindow(_ + _, _ - _, Seconds(60 * 5), Seconds(1))
据推测,它会计算过去 5 分钟内最流行的 twitter 哈希标签。那么,这是如何工作的。是否有某种隐藏循环每 5 分钟执行一次? words 和 hashtags 中的值是每秒还是 5 分钟?这里发生了什么?我迷路了,请帮忙。
【问题讨论】:
标签: scala hadoop apache-spark streaming bigdata