【发布时间】:2021-10-22 10:29:54
【问题描述】:
我们使用 BigQuery 和 SNOWFLAKE(Azure 托管),我们经常从大查询中导出数据并导入到 SNOWFLAKE,反之亦然。有什么简单的方法可以集成两个系统,比如自动将大查询表同步到 SNOWFLAKE,而不是导出到文件并导入?
【问题讨论】:
标签: google-bigquery snowflake-cloud-data-platform
我们使用 BigQuery 和 SNOWFLAKE(Azure 托管),我们经常从大查询中导出数据并导入到 SNOWFLAKE,反之亦然。有什么简单的方法可以集成两个系统,比如自动将大查询表同步到 SNOWFLAKE,而不是导出到文件并导入?
【问题讨论】:
标签: google-bigquery snowflake-cloud-data-platform
您应该查看自动同步的变更数据捕获解决方案。 其中一些拥有原生 Big Query 和 Snowflake 连接器。
一些例子:
【讨论】:
有很多方法可以实现这一点,最好的方法取决于数据的性质。
例如,如果您在 BigQuery 中每天都有新数据,那么您只需设置每天将新数据从 BigQuery 导出到 GCS。然后很容易设置 Snowflake 以读取 GCS 中的新数据,只要它与 Snowpipe 一起出现:
但是,您希望多久同步一次这些数据?它只是追加,还是需要考虑过去数据的变化?当同一行在两边以不同的方式变化时,你如何解决冲突?等等。
【讨论】: