【发布时间】:2021-04-30 12:36:26
【问题描述】:
考虑到我有一个简单的聚合,其中定义了一个没有任何水印的窗口。
df
.groupBy(window(col("time"), "30 minutes","10 minutes").as("time"))
.aggr ....
这里我们的窗口是30 minutes,滑动区间为10 minutes
- Q1.是不是表示10分钟后会滑落?
- Q2.如果是,那是不是有点类似于水印?
【问题讨论】:
-
好的,还有一个发现,如果我们在上面的代码示例中不使用水印,随着新的传入记录,数据帧将继续增长。谢谢@thebluephantom
标签: scala apache-spark spark-structured-streaming spark-streaming-kafka spark-checkpoint