【问题标题】:What's the meaning of the "Stages" on Spark UI for Streaming ScenariosSpark UI for Streaming Scenarios 上的“Stages”是什么意思
【发布时间】:2015-11-08 19:07:55
【问题描述】:

我正在研究 Spark Streaming,并尝试监控和改进流媒体应用的性能。但我对以下问题感到困惑。

  1. Spark Portal 上“Spark Streaming”的每个阶段的含义是什么 应用程序。
  2. 并非所有“转换”都映射到任务。以及如何将“转换”定位到映射的任务。

流式代码快照

val transformed = input.flatMap(i => processInput(i))
val aggregated = transformed.reduceByKeyAndWindow(reduce(_, _), Seconds(aggregateWindowSizeInSeconds), Seconds(slidingIntervalInSeconds))
val finalized = aggregated.mapValues(finalize(_))
finalized

(只有 Flatmap 阶段发生在门户上。)

Spark 流媒体门户

谢谢,

【问题讨论】:

    标签: apache-spark spark-streaming


    【解决方案1】:

    Spark 从您的源中获取各个命令,然后将其优化为要在集群上执行的任务计划。这种优化的一个例子是map-fusion:两次调用 map 进来,一个单独的 map 任务出来。 stage 是任务组之间更高级别的边界,定义为要跨越该边界,您必须执行 shuffle。

    所以:

    • 您在 RDD 上调用的每个运算符都会导致操作和转换。
    • 这些会导致运算符的 DAG。
    • DAG 被编译成多个阶段。
    • 每个阶段都作为一系列执行 任务。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-10-01
      • 2011-06-21
      • 1970-01-01
      • 1970-01-01
      • 2017-06-18
      • 2021-09-23
      相关资源
      最近更新 更多