【发布时间】:2018-10-19 03:20:32
【问题描述】:
我有一个从 mysql 表到 kafka 到我的 spark 程序的数据流。插入新行时,我对流进行转换并保存到 cassandra。
我的问题是当更新行时,我想合并我之前在创建行时所做的转换和新的更新。我知道我可以选择使用有状态的流式传输和数据库连接器,当我需要执行外部查找时,有人可以解释我的其他选项吗?
【问题讨论】:
标签: apache-spark cassandra pyspark spark-streaming pyspark-sql