【发布时间】:2020-04-26 10:12:12
【问题描述】:
我正在使用 spark-sql 2.4.x 版本,datastax-spark-cassandra-connector 用于 Cassandra-3.x 版本。和卡夫卡一起。
我有一个来自 kafka 主题的财务数据的场景,比如 financeDf 我需要重新映射 metaDataDf = //从 cassandra 表中加载的一些字段以查看。 但是这个 cassandra 表(metaDataDf)可以每小时更新一次。
在 spark-sql 结构化流应用程序中,我应该如何每隔一小时从 cassandra 表中获取最新数据?
我不想为我从主题(即 financeDf)收到的每条记录加载此数据 metaDataDf。
这应该如何完成/处理?请任何帮助..
【问题讨论】:
-
你考虑过流式数据集 (kafka) 和批处理数据集 (cassandra) 的
Dataset.join吗?
标签: apache-spark cassandra apache-spark-sql spark-structured-streaming