【发布时间】:2020-04-21 13:59:06
【问题描述】:
我使用 BigQuery SQL 创建了一个数据管道。 首先从 Cloud Storage 导入 CSV 文件,然后进行不同的分析,包括使用 BigQueryML 进行预测建模 使用地理函数进行地理计算,以及 使用分析函数计算 KPI。
我能够成功地手动运行不同的查询,现在我想自动化数据管道。
我的第一选择是 DataFlow SQL,但事实证明 Dataflow SQL 查询语法不支持地理函数。
DataFlow python 不是一个选项,因为完整的分析是在 SQL 中完成的,我想保持这种方式。
我的问题是可用于自动化数据管道的其他 GCP 选项是什么。
【问题讨论】:
-
您需要多复杂?你能简单地使用预定查询吗?如果你需要更复杂的我会使用 python,即使你所有的步骤都是函数式 SQL,你也可以使用 python 来编排它们。
-
就我个人而言,我发现 Dataflow 复杂且过于繁重,因为我需要运行多个 SQL 查询。 CRMint 是自动化 SQL(和其他)作业的好工具,也许这对您来说是一个很好的中间立场? github.com/google/crmint
-
cloud.getdbt.com 这是我们目前使用的一个很好的解决方案。您基本上用几乎纯 SQL 编排数据管道。
-
查看 Magnus - Workflow Automator,它是 Potens.io Suite 的一部分 - 支持所有 BigQuery、Cloud Storage 和大多数 Google API 以及多个简单的实用程序类型任务,例如 BigQuery 任务、导出到存储任务、循环任务等等,以及高级调度、触发等。也可在Marketplace 获得。披露:我是这些工具的创造者和 Potens 团队的领导者
-
如果您的查询像管道一样工作,换句话说,如果您需要完成一个查询才能运行另一个查询,我建议您查看 Cloud Composer
标签: google-cloud-platform google-bigquery google-cloud-dataflow