【问题标题】:Spark Streaming Run Actions On DStream AsynchronouslySpark Streaming 在 DStream 上异步运行操作
【发布时间】:2019-03-18 22:40:50
【问题描述】:

我正在编写一个数据摄取程序。从 Kafka 读取到 DStream 将 Dstrem 拆分为 3 个流并在每个流上执行操作:

val stream = createSparkStream(Globals.configs, ssc)
val s1 = stream.filter(<predicat1>)
val s2 = stream.filter(<predicat2>)
val s3 = stream.filter(<predicat3>)

//I'm looking for something like:
s1.forEachRddAsync(...
s2.forEachRddAsync(...
s3.forEachRddAsync(... 

如果可以在整个 DStream 而不是 RDD 上触发异步提交。

【问题讨论】:

    标签: apache-spark asynchronous spark-streaming dstream


    【解决方案1】:

    DStream 操作方法,虽然确实是阻塞的,但不处理数据。这些仅将DStream 注册为输出流。

    StreamingContext启动后,会根据可用资源调度处理,如果允许,不相互限制处理。

    【讨论】:

    • 从我在 spark UI 中看到的,所有 foreachRdd 操作都按顺序运行
    猜你喜欢
    • 1970-01-01
    • 2016-10-07
    • 1970-01-01
    • 2016-06-12
    • 2020-06-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-02-01
    相关资源
    最近更新 更多