【发布时间】:2015-09-30 06:46:02
【问题描述】:
player = LOAD 'ass2_player' USING org.apache.hive.hcatalog.pig.HCatLoader();
player = FOREACH player GENERATE
(chararray)$3 AS tmID,
(int)$1 AS year,
(int)$8 AS points;
group_data = GROUP player BY (year, tmID);
sum_data = FOREACH group_data GENERATE group, SUM(player.points) AS tot_points;
max_data = FOREACH sum_data GENERATE FLATTEN(group), MAX(sum_data.tot_points);
DUMP max_data;
我只想选择每年得分最高的团队的 tmID。
如何获取整行或部分字段或具有最大值的行。 就像,按年分组后,组只包含“年”,元组将采用“tmID,tot_points”。我怎么会这样: (year, tmID, tot_points) 每一年。
【问题讨论】:
-
您可以为您的用例添加示例输入和预期输出吗?
标签: hadoop apache-pig bigdata