【发布时间】:2021-02-06 06:59:58
【问题描述】:
我正在创建一个 bigquery 表,我在其中连接和转换来自其他几个 bigquery 表的数据。这一切都是用 sql 编写的,整个查询大约需要 20 分钟才能运行,并且由几个 sql 脚本组成。我还在创建最终表之前创建了一些中间表。
现在我想让上面的查询更加健壮并安排它,但我无法决定该工具。我正在考虑的替代方案。
-
使其成为数据流作业并使用云调度程序进行调度。这感觉可能有点矫枉过正,因为所有代码都在 SQL 中并且来自 bq --> bq。
-
创建计划查询以加载数据。没有这方面的经验,但看起来很安静
-
创建一个使用 BQ API 执行所有 sql 的 python 脚本。创建一个 cron 作业并安排它在 GCP 中的某个位置运行。
对于首选解决方案有何建议?
【问题讨论】:
-
你看过使用 dbt 吗?
-
查看stackoverflow.com/a/62312437/5221944 - 忽略该帖子的 sftp 部分 - 只关注 Magnus 工具 - 它解决了您问题中提到的许多问题
标签: database google-cloud-platform google-bigquery dataflow