【问题标题】:Spark Streaming Bug - Window of Windowed DStream does not workSpark Streaming Bug - Windowed DStream 的窗口不起作用
【发布时间】:2015-06-03 17:32:17
【问题描述】:

Windowed Dstream 的窗口在 Spark Streaming 中不起作用。这似乎是 Spark Streaming 中的调度程序错误。

val layer0= // Input data
val layer1 = layer0.window(Seconds(30), Seconds(30)) // Works
layer1.foreachRDD(...)

val layer2 = layer1.window(Seconds(60), Seconds(60)) // Does not work
layer2.foreachRDD(...)

任何人都遇到过此问题,并了解如何在 Spark 中解决此问题。

从驱动程序日志中添加更多详细信息:

时间1433141250000:

2015-06-01 06:47:30 INFO MapValuedDStream - 时间 1433141250000 毫秒无效,因为 zeroTime 为 1433141240000 毫秒,slideDuration 为 30000 毫秒,差异为 10000 毫秒

2015-06-01 06:47:30 INFO MapValuedDStream - 时间 1433141250000 毫秒无效,因为 zeroTime 为 1433141240000 毫秒,slideDuration 为 60000 毫秒,差异为 10000 毫秒

时间1433141260000:

2015-06-01 06:47:40 INFO MapValuedDStream - 时间 1433141260000 毫秒无效,因为 zeroTime 为 1433141240000 毫秒,slideDuration 为 30000 毫秒,差异为 20000 毫秒

2015-06-01 06:47:40 INFO MapValuedDStream - 时间 1433141260000 毫秒无效,因为 zeroTime 为 1433141240000 毫秒,slideDuration 为 60000 毫秒,差异为 20000 毫秒

时间 1433141270000 : (30S)

2015-06-01 06:47:50 INFO FilteredDStream - 从 1433141250000 毫秒切片到 1433141270000 毫秒(对齐到 1433141250000 毫秒和 1433141270000 毫秒)

2015-06-01 06:47:50 INFO MapValuedDStream - 时间 1433141270000 ms 无效,因为 zeroTime 为 1433141240000 ms,slideDuration 为 60000 ms,差异为 30000 ms

时间1433141280000: 2015-06-01 06:48:00 INFO MapValuedDStream - 时间 1433141280000 ms 无效,因为 zeroTime 为 1433141240000 ms,slideDuration 为 30000 ms,差异为 40000 ms

2015-06-01 06:48:00 INFO MapValuedDStream - 时间 1433141280000 毫秒无效,因为 zeroTime 为 1433141240000 毫秒,slideDuration 为 60000 毫秒,差异为 40000 毫秒

时间1433141290000:

2015-06-01 06:48:10 INFO MapValuedDStream - 时间 1433141290000 毫秒无效,因为 zeroTime 为 1433141240000 毫秒,slideDuration 为 30000 毫秒,差异为 50000 毫秒

2015-06-01 06:48:10 INFO MapValuedDStream - 时间 1433141290000 毫秒无效,因为 zeroTime 为 1433141240000 毫秒,slideDuration 为 60000 毫秒,差异为 50000 毫秒

时间 1433141300000 : (60S)

2015-06-01 06:48:20 INFO WindowedDStream - 从 1433141270000 毫秒切片到 1433141300000 毫秒(对齐到 1433141250000 毫秒和 1433141280000 毫秒)

2015-06-01 06:48:20 INFO WindowedDStream - 时间 1433141250000 毫秒无效,因为 zeroTime 为 1433141240000 毫秒,slideDuration 为 30000 毫秒,差异为 10000 毫秒

2015-06-01 06:48:20 INFO WindowedDStream - 时间 1433141280000 毫秒无效,因为 zeroTime 为 1433141240000 毫秒,slideDuration 为 30000 毫秒,差异为 40000 毫秒

【问题讨论】:

    标签: apache-spark spark-streaming


    【解决方案1】:

    这确实是一个错误,我已将其记录为SPARK-7326。我自己也修好了。见my pull request,已合并到master。我相信修复将在 1.4.0 版本中发布。

    【讨论】:

    • 我在 Spark 1.6.1 中仍然面临这个问题:16/11/22 19:46:30 INFO WindowedDStream: Time 1479824190000 ms is invalid as zeroTime is 1479824040000 ms and slideDuration is 300000 ms and difference是 150000 毫秒 16/11/22 19:46:30 INFO JobScheduler:在 1479824190000 毫秒内没有添加任何作业
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2020-06-03
    • 2017-09-03
    • 1970-01-01
    • 1970-01-01
    • 2016-06-12
    • 2016-10-07
    • 2014-12-21
    相关资源
    最近更新 更多