【发布时间】:2021-05-21 17:21:32
【问题描述】:
我有一个表,其中列像 record_id、creation_date、active_time、inactive_time 和更多数据列。截至目前,表中有大约 12M 条记录。 表中不同的'record_id'(varchar(6))值计数为:8M(此列上的数据分布均匀) 表中不同的“creation_date”(日期)值计数为:800(此列上的数据分布均匀) 集群详细信息 - 总切片为 16。
如果我说这个表与其他表的连接,它主要是基于列'record_id'和'creation_date'。并且有一段时间 active_time 和 inactive_time 也参与加入。
问题是:-
- 我应该将什么作为该表的 distribution_key、record_id 或 creation_Date ?
- 我应该使用什么排序键?正如我上面所说的 active_time 和 inactive_time 也参与了一段时间的连接,所以我应该将这 2 列包含在排序键中吗?
【问题讨论】:
标签: amazon-web-services amazon-redshift