【问题标题】:Difference between batch interval, sliding interval and window size in spark streamingSpark Streaming中批处理间隔,滑动间隔和窗口大小之间的差异
【发布时间】:2018-06-04 06:07:03
【问题描述】:

我是新的火花流媒体。我知道窗口大小需要是批处理间隔的倍数。但是滑动间隔是如何工作的呢?如果我有 3 作为窗口大小和 2 作为滑动间隔,当我计算说字数时会不会有重叠?还是滑动间隔和批处理间隔应该一样?

【问题讨论】:

    标签: apache-spark spark-streaming


    【解决方案1】:

    Here 是一个文档链接。

    让我们来看看这些概念:

    1. 批处理间隔 - 以秒为单位的时间,在对数据进行调度处理之前将收集多长时间。例如,如果您将批处理间隔设置为 5 秒 - Spark Streaming 将收集 5 秒的数据,然后使用该数据对 RDD 进行计算。
    2. 窗口大小 - 在处理之前,RDD 中应包含多少历史数据的时间间隔(以秒为单位)。例如,您有 1 秒的批处理间隔和 2 的窗口大小 - 在这种情况下,您将每秒踢出前 2 个批处理的计算。例如,在 time=3 时,您将在 time=2 和 time=3 获得批处理数据。
    3. 滑动间隔 - 窗口移动量的时间量(以秒为单位)。例如,在前面的示例中,滑动间隔为 1(因为每秒都会退出计算),例如at time=1, time=2, time=3...如果设置滑动间隔=2,则会在time=1, time=3, time=5...时得到计算...

    您可以参考上图,窗口大小是批处理间隔的 3 倍,滑动窗口是批处理间隔的 2 倍。

    回答为什么窗口和滑动间隔应该是批处理间隔的倍数的问题 - 这是因为否则您的窗口将在批处理之间结束。

    如果您有 3 作为窗口大小和 2 作为滑动间隔(见图) - 是的,您的字数将重叠。基本上,当您想在有限的时间内计算某些东西时,您会使用 window,例如实际新闻或推文或其他任何东西,当您不需要所有历史数据进行分析时。

    【讨论】:

      猜你喜欢
      • 2017-06-24
      • 2018-08-08
      • 2020-01-05
      • 1970-01-01
      • 1970-01-01
      • 2015-04-12
      • 2017-05-02
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多