【发布时间】:2013-08-08 03:43:49
【问题描述】:
如何在 Hive 中执行此操作?
columnA columnB columnC
100.10 50.60 30
100.10 50.60 30
100.10 50.60 20
100.10 70.80 40
输出应该是:
columnA columnB No_of_distinct_colC
100.10 50.60 2
100.10 70.80 1
我认为正确的查询:
SELECT columnA,columnB,COUNT(distinct column C)
from table_name
group by columnA,columnB
这是正确的吗? SQL也不错。
更新:如何找到 columnC 的标准差?尽快需要这个。
【问题讨论】:
-
是的,您的 SQL 看起来不错。
-
查询看起来不错,但使用
COUNT(DISTINCT(X))可能不会给出最有效的执行结果。另请参阅此答案:stackoverflow.com/questions/8762064/…