【发布时间】:2020-10-05 07:51:14
【问题描述】:
我们计划实施一个 Spark Structured Streaming 应用程序,该应用程序将使用连续的数据流:度量值随时间的演变。 此流式应用程序将使用 7 天的窗口大小(和一个滑动窗口),以便频繁计算过去 7 天的指标值的平均值。
1- Spark 会保留所有这 7 天的数据(对消耗的内存有很大影响),或者 Spark 会不断计算和更新请求的平均值(然后删除处理过的数据),因此不会影响消耗的内存(不保留 7 天的数据)?
2- 如果第一个问题的答案是保留这 7 天的数据,水印的使用会阻止这种保留吗? 假设我们有一个 1 小时的水印; Spark 中只会保留 1 小时的数据,还是会在 Spark 内存中保留 7 天,并且此处的水印只是为了忽略数据时间戳超过 1 小时的新数据?
【问题讨论】:
标签: apache-spark spark-structured-streaming