【问题标题】:Finding unique values in hive table在 hive 表中查找唯一值
【发布时间】:2016-10-26 14:26:59
【问题描述】:

我有一个具有一百万行的配置单元表 table_perm。每天都有新数据从另一个 hive 表 table_temp 附加到此表中。

假设表格如下:

table_perm id,col2,col3,ts 1,a,b,t1 2,d,e,t1 3,g,h,t1 4,j,k,t2 5,a,e,t2 6,h,d,t2

table_temp id,col2,col3,ts 6,h,k,t3 7,d,r,t3 8,a,h,t3 9,t,q,t3

我的最终输出应该是, id,col2,col3,ts 1,a,b,t1 2,d,e,t1 3,g,h,t1 4,j,k,t2 5,a,e,t2 6,h,k,t3 7,d,r,t3 8,a,h,t3 9,t,q,t3

所以基本上我必须在这里验证 id 是否唯一,然后附加数据。如果 id 不唯一,则追加最新记录。

考虑到 table_perm 很大,我应该用什么方法来查找唯一 id 值并插入 table_perm,验证 id 列的每个值可能很乏味。

附注: 列 ts 是时间戳,增量更新每天发生一次。 table_perm 很大。

【问题讨论】:

  • 您的问题是什么?数据是否正确附加?
  • @GordonLinoff :更新了问题。

标签: hadoop hive hql


【解决方案1】:

最好的方法是 在 id 上执行 table_perm join table_temp。 然后通过检查 ts 相应地选择字段。

select table_perm.id,IF(table_perm.ts>table_temp.ts,table_perm.col2,table_temp.col2), IF(table_perm.ts>table_temp.ts,table_perm.col3,table_temp.col3)
from table_perm join table_perm on table_perm.id=table_perm.id

不要担心数据的大小。Hive 适合大数据应用程序

【讨论】:

  • 这让整个过程真的很慢...假设我有 15 列,检查所有列需要很多时间。
  • 您的应用程序是否正在进行实时处理?如果是这样,则使用 hive 不是您用例的有效工具。如果不是实时的,请不要担心数据和时间
  • 不,我们没有进行实时处理。但是这些数据会进入演示表,我们在 SAS VA 之上进行分析。我们的目标是整个过程不到 10 分钟。
  • 您是使用带有 Hive 的 Spark 集群还是带有 Hive 的 Hadoop 集群。如果你想把它缩短到 10 分钟以内,我猜 spark with hive 就可以了。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2011-04-22
  • 2016-10-07
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多