【问题标题】:What is the performance of BigQuery federated queries?BigQuery 联合查询的性能如何?
【发布时间】:2020-08-03 03:05:12
【问题描述】:

我正在重新设计一项服务,以便可以使用 BigQuery 搜索大型数据集。最初,我打算每天晚上将数据从 CloudSQL 流式传输到 BigQuery,但我在研究阶段开始意识到联合查询。也许我遗漏了一些明显的东西,但我似乎找不到任何特别指出 BigQuery 联合查询是否与普通 BigQuery 查询一样具有性能的东西。它似乎专注于在多个系统中存储数据和联合查询的问题,从而更容易将 MySQL(或 Postgres)数据与 BigQuery 数据连接起来。

联合查询是否充分利用了 BigQuery 的全部或大部分优势(使用数千台机器执行扫描),还是不可能?谷歌说“*可能不如查询驻留在 BigQuery 表中的数据执行得好”,但有没有人使用它并发现它接近或相似?

【问题讨论】:

    标签: google-app-engine google-bigquery


    【解决方案1】:

    性能受限于您的 CloudSQL 实例的容量。那是你的瓶颈。

    当然,您已经阅读了this,但是从不同部分收集信息,您可以看到实际发生的情况如下。

    BigQuery 将发送要在您的 CloudSQL 实例上执行的查询。 查询结果将由 BigQuery 读取并存储在临时表中。

    请记住,这意味着您在 CloudSQL 实例中添加了一些负载,并且您还需要在 BigQuery 中读取字节(并为其付费)。

    这明显不同于使用 StitchData 或 Fivetran 等商业工具之一在 BigQuery 中复制您的 CloudSQL 数据,然后然后直接在 BigQuery 中查询。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-05-05
      • 2013-11-06
      • 2020-08-29
      • 2017-07-15
      • 2021-09-07
      • 1970-01-01
      相关资源
      最近更新 更多