【发布时间】:2018-02-04 23:15:35
【问题描述】:
我正在 Amazon Redshift 上构建几个非常大的数据表,这些数据表应该包含涵盖多个具有相关指标的频繁查询属性的数据。
我们使用均匀分布样式(“diststyle even”)让所有节点都参与查询计算,但我不确定排序键的长度。
它绝对应该是复合的——每个查询都将使用日期和网络上的第一个过滤器——但在那个级别之后,我有大约 7 个额外的相关因素可以查询。 我见过的所有示例都使用 2-3 个字段的复合排序键,最多 4 个。
我的问题是 - 为什么不使用包含表中所有关键字段的排序键?长排序键有什么缺点?
【问题讨论】:
-
好吧,如果你建立一个包含表中所有列的索引,它会比你建立一个只包含几个列的索引占用更多的空间。因此,如果空间是一个问题,那么这可能是您问题的答案。
标签: amazon-redshift