【发布时间】:2018-06-04 06:07:03
【问题描述】:
我是新的火花流媒体。我知道窗口大小需要是批处理间隔的倍数。但是滑动间隔是如何工作的呢?如果我有 3 作为窗口大小和 2 作为滑动间隔,当我计算说字数时会不会有重叠?还是滑动间隔和批处理间隔应该一样?
【问题讨论】:
标签: apache-spark spark-streaming
我是新的火花流媒体。我知道窗口大小需要是批处理间隔的倍数。但是滑动间隔是如何工作的呢?如果我有 3 作为窗口大小和 2 作为滑动间隔,当我计算说字数时会不会有重叠?还是滑动间隔和批处理间隔应该一样?
【问题讨论】:
标签: apache-spark spark-streaming
Here 是一个文档链接。
让我们来看看这些概念:
您可以参考上图,窗口大小是批处理间隔的 3 倍,滑动窗口是批处理间隔的 2 倍。
回答为什么窗口和滑动间隔应该是批处理间隔的倍数的问题 - 这是因为否则您的窗口将在批处理之间结束。
如果您有 3 作为窗口大小和 2 作为滑动间隔(见图) - 是的,您的字数将重叠。基本上,当您想在有限的时间内计算某些东西时,您会使用 window,例如实际新闻或推文或其他任何东西,当您不需要所有历史数据进行分析时。
【讨论】: