【发布时间】:2019-07-23 09:04:22
【问题描述】:
我们正在尝试通过利用 Spring Cloud 数据流来设计 ETL 解决方案。
要求主要是:
- 以只读访问权限查询外部源数据库,该数据库的行数可能高达 ~400k 行
- 执行最小转换/数据质量
- 使用 jdbc 接收器上传/接收到 postgres 数据集市。 (每天上传前截断表格)
- 每 24 小时运行一次
我们面临的一些挑战:
-
我们尝试使用 JDBC-source starter 应用程序连接到源数据库,
李>
但是,我们访问的数据库存在限制,因为它们归另一个部门所有,因此无法使用 jdbc.update 更新源数据库以将行标记为“已见”的功能。 是否有推荐的方法来查询和翻阅大型结果集而不会耗尽内存? jdbc.max-rows-per-poll 选项似乎不适合这种情况。
我们不喜欢使用 Tasks / Batch,因为流管道更强大、更干净(数据可以流过流并转换)。有没有人成功地使用 SCDF 流来实现类似的目标,或者它根本不是为这个用例设计的?
【问题讨论】: