【发布时间】:2012-07-18 03:50:58
【问题描述】:
我正在使用 PigLatin 过滤一些记录。
User1 8 NYC
User1 9 NYC
User1 7 LA
User2 4 NYC
User2 3 DC
脚本应删除用户的重复项,并保留这些记录之一。类似于 linux 中的独特命令。
输出应该是:
User1 8 NYC
User2 4 NYC
有什么建议吗?
【问题讨论】:
标签: apache-pig
我正在使用 PigLatin 过滤一些记录。
User1 8 NYC
User1 9 NYC
User1 7 LA
User2 4 NYC
User2 3 DC
脚本应删除用户的重复项,并保留这些记录之一。类似于 linux 中的独特命令。
输出应该是:
User1 8 NYC
User2 4 NYC
有什么建议吗?
【问题讨论】:
标签: apache-pig
对于您的特定示例 distinct 将无法正常工作,因为您的输出包含所有输入列 ($0, $1, $2),您只能对具有列 ($0, $2) 或 ($0) 的投影执行 distinct 并丢失 $1。
要为每个用户选择一条记录(任何记录),您可以使用GROUP BY 和嵌套FOREACH 和LIMIT。例如:
inpt = load '......' ......;
user_grp = GROUP inpt BY $0;
filtered = FOREACH user_grp {
top_rec = LIMIT inpt 1;
GENERATE FLATTEN(top_rec);
};
此方法将帮助您获得在字段子集上唯一的记录,并限制每个用户的输出记录数,这是您可以控制的。
【讨论】:
Pig 提供 DISTINCT 命令来选择唯一数据。如果你想在字段上使用 distinct 在 foreach 嵌套块中使用 Distinct。
【讨论】: