【发布时间】:2023-03-21 14:53:02
【问题描述】:
我正在将数据从我的 postgres 数据库移动到 kafka,并在中间使用 spark 进行一些转换。 我有 50 张桌子,对于每张桌子,我都有与其他桌子完全不同的转换。 所以,我想知道如何构建我的 spark 结构化流代码的最佳方式。我认为有三种选择:
-
将这50张表的所有读写逻辑放在一个对象中,只调用这个对象。
-
为每个表创建 50 个不同的对象,并在一个新对象中创建一个主方法,调用 50 个对象中的每一个,然后调用 spark.streams.awaitAnyTermination()
-
通过 spark submit 单独提交这 50 个对象中的每一个
如果有其他更好的选择,请与我联系。
谢谢
【问题讨论】:
标签: apache-spark spark-streaming spark-structured-streaming spark-streaming-kafka