【发布时间】:2012-02-22 03:11:35
【问题描述】:
我有一个大表(200 万多条记录和大量列)。我打算为重复数据删除目的进行 GROUP BY。我想知道以下两种策略中哪一种效果更好?
- GROUP BY 多列(col_a, col_b, col_c)
- 添加一个由使用 col_a、col_b、col_c 形成的规范化字符串组成的新列 dedup_col,然后对 dedup_col 执行 GROUP BY。 dedup_col 将预先填充。
我知道我可以运行基准测试,但在开始实施之前我想要一些理论输入。
【问题讨论】:
标签: postgresql