【问题标题】:Windowing and Watermark in Apache beam : Google dataflowApache Beam 中的窗口化和水印:Google 数据流
【发布时间】:2021-01-07 12:31:15
【问题描述】:

我有 1 分钟的固定窗口。我正在考虑活动时间。

beam.WindowInto(window.FixedWindows(300))

当我部署此代码时,即使我没有发布任何消息,是否会立即创建窗口。假设我在 6:30 部署,是否就像在 6:30 到 6:35、6 时自动创建窗口一样: 35点到6点40分等等?

如果我向主题发布消息 事件时间戳 = 6:31(unix 秒,即 10,176589653) 当系统时间 = 6:36 ..这是否意味着该特定消息的水印在 6:31 并且它将错过窗口,因为系统时间是 6:36 并且允许延迟 = 0 并且将被拒绝。

【问题讨论】:

    标签: google-cloud-dataflow apache-beam


    【解决方案1】:

    Windows 总是使用 UNIX 时间 0 作为基础创建的,这意味着,无论您是在 6:31、6:32 还是 6:35 启动管道,窗口都将始终为 [6:30, 6:35), [6:35, 6:40)...。请注意,这也适用于几天,窗口将从 00:00 UTC 开始。

    如果你想改变这个,有一个offset parameter

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2021-12-22
      • 1970-01-01
      • 1970-01-01
      • 2021-04-13
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多