【发布时间】:2014-03-13 08:13:53
【问题描述】:
我有如下半结构化数据:
col1 col2 col3 col4
1 2 3 [name#aa, address#[perminentaddress#abc,currentaddress#xyg]]
5 9 8 [address#[perminentaddress#dev,currentaddress#pqr],name#bb]
3 4 9 [name#cc,mobile#111,id#66 address#[perminentaddress#abc,currentaddress#xyg]]
前三列是固定的,第四列可以包含任何带有键值对的未知数据。键值对可以嵌套,如上例所示。最重要的是第 4 列中的键位置不固定,可以有无限数量的键。
是否可以使用 pig/hive 处理这些数据?
例如,如何从以上所有行中获取当前地址值? (请注意,键位不固定,地址键有嵌套键)
谢谢。
【问题讨论】:
-
是的,可以在 pig 中处理,您还没有提出非常具体的问题
-
我已将上述问题编辑得更具体。
标签: hadoop hive apache-pig