【发布时间】:2012-09-03 00:52:57
【问题描述】:
我计划每天将增量数据附加到 BigQuery 表中。每次向现有表添加增量数据时,我都想从表中的现有数据中消除重复记录(基于主键列)。 一种方法是 -
- 从增量数据中收集一组键(我们称之为
INCR_KEYS) - 在 -
SELECT all_cols from table where pkey_col NOT IN (INCR_KEYS)的行上运行查询 - 并将结果存储在新表中。 - 将增量数据附加到新表中。
我对这种方法的担忧是它会创建一个大表的副本并添加到我的账单中。
有没有更好的方法在不创建重复表的情况下实现相同的目标?
【问题讨论】:
-
桌子有多大?如果压缩后大于 64MB,#2 将失败。
-
@RyanBoyd - 这应该不是问题。如果 INCR_KEYS>64MB,我可以将 INCR_KEYS 分成更小的块并重复
-
问题是整个表(即不在INCR_KEYS中的数据)是否> 64MB。 #2 中的 SELECT 查询不会成功。
-
@RyanBoyd - 嗯,再次查看开发人员指南。那就得想个办法了。感谢您指出这一点!
-
重新回答您的 R 问题。我同意我们需要更好的渠道让您提出这类问题。我们正在尝试找出最适合您的方法,同时确保所有技术/开发人员问题都出现在 SO 中。与此同时,请随时通过 Google+ 上的profiles.google.com/ryan.boyd 和 twitter 上的 ryguyrg 与我们联系。
标签: google-bigquery