【问题标题】:External Lookup Spark Streaming外部查找 Spark Streaming
【发布时间】:2018-10-19 03:20:32
【问题描述】:

我有一个从 mysql 表到 kafka 到我的 spark 程序的数据流。插入新行时,我对流进行转换并保存到 cassandra。

我的问题是当更新行时,我想合并我之前在创建行时所做的转换和新的更新。我知道我可以选择使用有状态的流式传输和数据库连接器,当我需要执行外部查找时,有人可以解释我的其他选项吗?

【问题讨论】:

    标签: apache-spark cassandra pyspark spark-streaming pyspark-sql


    【解决方案1】:

    我假设您问的是除了结构化流之外,如何在 Spark Streaming 中处理数据突变?

    对于外部查找,有多种数据存储可与 Spark 结合使用。不久前,我创建了一个主列表here。据我所知,SnappyData 是唯一一个允许您在 DataFrame 本身中执行数据突变

    免责声明:我为 SnappyData 工作

    【讨论】:

    • 感谢@plambre 的建议!我一定会看看的。
    猜你喜欢
    • 2015-05-20
    • 2015-03-31
    • 1970-01-01
    • 2021-02-12
    • 2020-03-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多