无状态转化:

每次计算的时间,仅仅计算当前时间切片的内容,每个批次处理都不依赖于先前批次的数据。

如,每次只计算1s时间内产生的RDD。

Spark Streaming ------ 有状态转化和无状态转化

有状态转化

依赖之前的批次数据或者中间结果来计算当前批次的数据,不断的把当前的计算和历史时间切片的RDD进行累计。

如,计算某个单词出现的次数,需要把当前的状态与历史的状态相累加,随着时间的流逝, 数据规模会越来越大,包括updateStatebyKey()window()

相关文章:

  • 2021-08-04
  • 2021-06-12
  • 2022-12-23
  • 2021-09-29
  • 2021-08-21
  • 2022-01-28
  • 2021-11-03
  • 2021-11-29
猜你喜欢
  • 2022-12-23
  • 2021-06-07
  • 2022-01-15
  • 2022-12-23
  • 2021-10-23
  • 2021-12-06
  • 2022-12-23
相关资源
相似解决方案