【发布时间】:2013-02-16 17:16:23
【问题描述】:
刚刚测试了 AWS Redshift,并在插入时发现了一些重复数据,我希望这些重复数据在键列中的重复时会失败,阅读文档显示主键约束不是' t “强制”。
任何人都想出了如何防止主键重复(根据“传统”期望)。
感谢所有 Redshift 先驱!
【问题讨论】:
-
我认为无论您使用什么代码进行发布,都需要首先运行查询以验证具有该键的记录不存在。
-
我希望避免这种情况。一个容易考虑的情况是细化到小时的时间维度。我希望只插入可能在维度查询中使用的行,但是如果我必须选择然后插入数据跨越的每个可能的小时,而这些小时被数百万行使用 - 这太疯狂了。事实表有一个时间键,yyyy_mm_dd_hh - 这个键链接到扩展数据的维度表(年,月,日,星期几,周,业务季度等)当然希望有一个替代...
-
Saeven,你有没有找到解决办法?
-
我求助于在 diff 连接上使用 MySQL 表作为中介,在将数据添加到成为问题的维度表之前权衡一组因素。从清洁度的角度来看,这不是最佳选择,但是考虑到影响决策的商业因素,我别无选择。
-
该死,我希望听到你想出一个纯粹的 AWS 解决方法。我可能最终也不得不做类似的事情。 :(
标签: sql amazon-web-services amazon-redshift