集群在 BigQuery 中的工作原理

【问题标题】：how clustering works in BigQuery集群在 BigQuery 中的工作原理
【发布时间】：2019-09-17 03:22:45
【问题描述】：

我有一个表 UNITARCHIVE 按日期分区，并按 UNIT、DUID 进行集群。

表的总大小为 892 Mb。

当我尝试这个查询时

SELECT * FROM `test-187010.ReportingDataset.UNITARCHIVE` WHERE duid="RRSF1" and unit="DUNIT"

Bigquery 告诉我，它将处理 892 mb，我认为集群应该减少扫描的大小，我理解当我按日期过滤时，大小会显着减小，但我需要整个日期范围。是故意设计的还是我做错了什么

【问题讨论】：

【解决方案1】：

为了从集群中获得最大的好处，每个分区都需要有一定的数据量。

例如，如果集群的最小大小为 100MB（由 BigQuery 内部决定），而您每天只有 100MB 的数据，那么查询 100 天将扫描 100*100MB - 无论集群策略如何。

作为这种数据量的替代方案，不是按天分区，而是按年分区。然后，您将从每天少量数据的集群中获得最大收益。

【讨论】：