遇到这么一个需求,输入数据为一个ID对应多个name,要求输出数据为ID是唯一的,name随便取一个就可以。

执行以下hive ql语句:

 
 
1
2
3
4
5
6
SELECT
,
class_id
FROM
table2
;

会报错:

 
 
1
'class_id'

查了一下,HIVE有这么一个函数collect_set,类似于mysql的group_concat函数,把每个分组的其他字段,按照逗号进行拼接,得到一个最终字符串:

 
 
1
2
3
)
array
解释:返回一个去重后的对象集合

将上述的QL语句改一下:

 
 
1
;

结果是这样的:

 
 
1
2
3
4
5
6
]
]
]
]
]
]

这个时候,我们就可以针对第二列做一些计数、求和操作,分别对应到Hive的聚合函数count、sum。

对应到本文的目的,直接从数组获取第一个元素就达到目的了,这样做:

 
 
1
;

结果如下:

 
 
1
2
3
4
5
6
11
11
12
12
16
13

总结:

  1. Hive不允许直接访问非group by字段;
  2. 对于非group by字段,可以用Hive的collect_set函数收集这些字段,返回一个数组;
  3. 使用数字下标,可以直接访问数组中的元素;

参考文章:http://wangjunle23.blog.163.com/blog/static/117838171201310222309391/

本文地址:http://www.crazyant.net/1600.html

相关文章:

  • 2022-02-10
  • 2021-10-30
  • 2022-12-23
  • 2021-06-02
  • 2021-07-01
  • 2021-09-19
  • 2022-12-23
  • 2019-03-26
猜你喜欢
  • 2021-10-08
  • 2021-09-21
  • 2022-01-28
  • 2021-06-03
  • 2022-12-23
  • 2021-04-09
  • 2022-12-23
相关资源
相似解决方案