【发布时间】:2017-05-04 05:09:13
【问题描述】:
我在这个问题上纠结了一段时间。我有一个如下所示的数据文件:
(1,N,N,5,High,H,House,d)
(1,N,N,6,High,H,House,a)
(2,N,N,10,Low,H,House,t)
(2,N,N,11,Medium,H,House,e)
我希望我的输出格式如下。我可以用 Pig 实现吗???
{1,(N,N),{(5,High),(H,House),d},{(6,High),(H,House),a}}
{2,(N,N),{(10,Low),(H,House),t}{(11,Medium),(H,House),e}}
我实际上尝试按第一列对其进行分组。
datafile = LOAD '/user/zbc/xyz.txt' USING PigStorage() AS (id:int,
flag1:chararray, flag2:chararray, typcode:chararray, typ_name:chararray,
groupcode:charray, groupname:chararray, date:chararray);
collected = FOREACH datafile Generate TOBAG(gst_id, TOTUPLE(flag1,flag2),
TOBAG(TOTUPLE(typcode, typname), TOTUPLE(groupcode, groupname), date));
我不知道如何进一步进行。按“一个字段和一个元组”分组。
【问题讨论】:
标签: tuples apache-pig