【发布时间】:2016-10-26 14:26:59
【问题描述】:
我有一个具有一百万行的配置单元表 table_perm。每天都有新数据从另一个 hive 表 table_temp 附加到此表中。
假设表格如下:
table_perm
id,col2,col3,ts
1,a,b,t1
2,d,e,t1
3,g,h,t1
4,j,k,t2
5,a,e,t2
6,h,d,t2
table_temp
id,col2,col3,ts
6,h,k,t3
7,d,r,t3
8,a,h,t3
9,t,q,t3
我的最终输出应该是,
id,col2,col3,ts
1,a,b,t1
2,d,e,t1
3,g,h,t1
4,j,k,t2
5,a,e,t2
6,h,k,t3
7,d,r,t3
8,a,h,t3
9,t,q,t3
所以基本上我必须在这里验证 id 是否唯一,然后附加数据。如果 id 不唯一,则追加最新记录。
考虑到 table_perm 很大,我应该用什么方法来查找唯一 id 值并插入 table_perm,验证 id 列的每个值可能很乏味。
附注: 列 ts 是时间戳,增量更新每天发生一次。 table_perm 很大。
【问题讨论】:
-
您的问题是什么?数据是否正确附加?
-
@GordonLinoff :更新了问题。