【问题标题】:Removing duplicates using PigLatin使用 PigLatin 删除重复项
【发布时间】:2012-07-18 03:50:58
【问题描述】:

我正在使用 PigLatin 过滤一些记录。

User1  8 NYC 
User1  9 NYC 
User1  7 LA 
User2  4 NYC
User2  3 DC 

脚本应删除用户的重复项,并保留这些记录之一。类似于 linux 中的独特命令。

输出应该是:

User1 8 NYC 
User2 4 NYC

有什么建议吗?

【问题讨论】:

    标签: apache-pig


    【解决方案1】:

    对于您的特定示例 distinct 将无法正常工作,因为您的输出包含所有输入列 ($0, $1, $2),您只能对具有列 ($0, $2)($0) 的投影执行 distinct 并丢失 $1

    要为每个用户选择一条记录(任何记录),您可以使用GROUP BY 和嵌套FOREACHLIMIT。例如:

    inpt = load '......' ......;
    user_grp = GROUP inpt BY $0;
    filtered = FOREACH user_grp {
          top_rec = LIMIT inpt 1;
          GENERATE FLATTEN(top_rec);
    };
    

    此方法将帮助您获得在字段子集上唯一的记录,并限制每个用户的输出记录数,这是您可以控制的。

    【讨论】:

    • 谢谢,这正是我想要的。
    【解决方案2】:

    Pig 提供 DISTINCT 命令来选择唯一数据。如果你想在字段上使用 distinct 在 foreach 嵌套块中使用 Distinct。

    【讨论】:

    • 使用 Distinct 时要小心.. DISTINCT 关键字的缺点是:您不能确定只会删除第一条记录。
    猜你喜欢
    • 2021-07-16
    • 2017-05-03
    • 2013-05-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-01-12
    • 2018-03-13
    相关资源
    最近更新 更多