【问题标题】:semi structured data processing using pig/hive使用 pig/hive 的半结构化数据处理
【发布时间】:2014-03-13 08:13:53
【问题描述】:

我有如下半结构化数据:

col1 col2 col3 col4
1    2    3    [name#aa, address#[perminentaddress#abc,currentaddress#xyg]]
5    9    8    [address#[perminentaddress#dev,currentaddress#pqr],name#bb]
3    4    9    [name#cc,mobile#111,id#66 address#[perminentaddress#abc,currentaddress#xyg]]

前三列是固定的,第四列可以包含任何带有键值对的未知数据。键值对可以嵌套,如上例所示。最重要的是第 4 列中的键位置不固定,可以有无限数量的键。

是否可以使用 pig/hive 处理这些数据?

例如,如何从以上所有行中获取当前地址值? (请注意,键位不固定,地址键有嵌套键)

谢谢。

【问题讨论】:

  • 是的,可以在 pig 中处理,您还没有提出非常具体的问题
  • 我已将上述问题编辑得更具体。

标签: hadoop hive apache-pig


【解决方案1】:

您可以使用嵌套的数据映射来表示第 4 列,请参阅http://wiki.apache.org/pig/PigLatin 的概述

然后您将能够以col4#'address'#'currentaddress' 的身份访问currentaddress

要以这种方式表示您的数据,您可能需要编写custom load function

【讨论】:

    猜你喜欢
    • 2016-08-22
    • 2010-09-18
    • 2021-05-11
    • 1970-01-01
    • 1970-01-01
    • 2020-12-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多