【问题标题】:Spark Stateful Streaming with DataFrame使用 DataFrame 的 Spark 状态流
【发布时间】:2018-02-22 17:25:12
【问题描述】:

是否可以将 DataFrame 用作 Spark Streaming 的 State / StateSpec?当前的 StateSpec 实现似乎只允许键值对数据结构(mapWithState 等)。

我的目标是保持一个固定大小的 FIFO 缓冲区作为 StateSpec,每次新数据流入时都会更新。我想在 Spark DataFrame API 中实现缓冲区,以与 Spark ML 兼容。

【问题讨论】:

    标签: apache-spark spark-dataframe spark-streaming


    【解决方案1】:

    我不完全确定您是否可以使用 Spark Streaming 做到这一点,但使用基于 Dataframe 的较新 Spark 结构化 Streaming 您可以表达随着时间的推移而更新的查询,给定传入流数据。

    您可以阅读有关 Spark 结构化流式处理的更多信息in the official documentation

    如果您对与 SparkML 的互操作性以部署经过训练的模型感兴趣,您可能还对 this article 感兴趣。

    【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-12-30
    • 1970-01-01
    • 1970-01-01
    • 2020-08-10
    • 2022-01-26
    • 2022-08-12
    相关资源
    最近更新 更多