【问题标题】:Stateful and Stateless Streaming (Spark)有状态和无状态流 (Spark)
【发布时间】:2016-10-28 00:15:23
【问题描述】:

我知道有状态和无状态流式处理之间的区别。我读到 Storm 是无状态的,而 Trident 是有状态的。我还读到 Hadoop(用于批处理)是有状态的,Spark 可以计算有状态的操作。

有人可以澄清这些吗?具体来说,

  1. spark 能否同时进行有状态和无状态操作?
  2. Hadoop 是有状态的意味着什么,因为在谈到 Hadoop 时我们只讨论批处理。
    1. Apache Storm 如何处理有状态流? (使用三叉戟?)

【问题讨论】:

    标签: hadoop apache-spark apache-storm


    【解决方案1】:

    1-是的 spark 有状态和无状态操作 使用 mapWithState 进行状态流处理

    欲了解更多信息,请参阅https://databricks.com/blog/2016/02/01/faster-stateful-stream-processing-in-apache-spark-streaming.html

    2-Hadoop 是有状态的,因为它读取一次

    【讨论】:

      猜你喜欢
      • 2016-09-11
      • 2019-07-16
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-07-16
      • 2015-05-09
      相关资源
      最近更新 更多