【发布时间】:2014-07-26 22:25:08
【问题描述】:
这是来自表 daily_user 的一些示例数据。每行代表一个特定日期的活跃用户,收入基于该用户当天产生的钱。此表中最早的日期是 1/1。
date user_id group revenue
1/1 1 a 1
1/1 2 b 0
1/1 3 a 0
1/2 2 b 10
1/2 3 a 0
1/3 3 a 1
我想要的输出(基本上,每一行告诉我每个组,从 1/1 到每个观察日期,有多少用户曾经付费。例如,最后一行表示从 1/1-1/3,对于 b 组,我们总共有 1 个用户向我们付款):
end_date group # users who ever paid
1/1 a 1
1/1 b 0
1/2 a 1
1/2 b 1
1/3 a 2
1/3 b 1
似乎有一些 UDF 可以进行累积求和,但我不确定我是否可以在这里利用任何累积非重复计数函数。反正有没有构造一个蜂巢查询来实现这个?
【问题讨论】:
-
您是指累积distinct计数还是累积折扣计数?
-
我的意思是不同的,谢谢!
标签: count hive distinct cumulative-sum