【问题标题】:Bag & Tuple Schema in PigPig 中的包和元组模式
【发布时间】:2016-04-02 16:28:58
【问题描述】:

我试图为我尝试使用 JsonLoader 加载的一些数据指定架构,我要上传的数据格式为

Features:["Speedy","New","Automatic",..]

对于每条记录,特征的数量不是固定的,它可以是不同的。我在模式中将其表示为:

Features: bag{a: tuple(t:chararray)}

但是它不起作用。有人可以用正确的语法帮助我并指出我错了。

【问题讨论】:

    标签: hadoop tuples schema apache-pig cloudera


    【解决方案1】:

    字段名称规范是不必要的,因为您有一个没有任何字段名称的简单数组。试试这个:

    a = load 'a.json' using JsonLoader('value:int,feature:{(chararray)}');
    

    Json 文件:

    {"value":1, "feature":[1, 2, 3] }
    {"value":2, "feature":[2,3,4]}
    {"value":3, "feature":[12,13,14]}
    {"value":4, "feature":[2]}
    

    输出:

    (1,{(1),(2),(3)})
    (2,{(2),(3),(4)})
    (3,{(12),(13),(14)})
    (4,{(2)})
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-08-27
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多