【问题标题】:Using bicond to get ID?使用 bicond 获取 ID?
【发布时间】:2021-05-23 12:58:46
【问题描述】:

我有这个叫做joinTbl的表的sn-p:

PRODUCT_ID  PRODUCT_NAME    ORDER_ID     PRODUCT_ID      CUSTOMER_ID     SALESPERSON_ID      UNIT_PRICE 
   11          CAKE           10946          11               83              1                  31
   11          CAKE           10949          11               10              2                  31
   11          CAKE           11020          11               56              2                  31
   14          CHICKEN        11076          14               9               4                  23.25
   11          CAKE           11077          11               65              1                  31
   14          CHICKEN        11077          14               65              1                  23.25

在 Pig Apache 中,如果订单同时包含蛋糕和鸡肉,我会尝试获取 ORDER_ID。预期结果是

11077

但是我在尝试做一个 bicond 来获得这个ORDER_ID 时遇到了问题。这是我使用的语法:

cakeChicken = FOREACH joinedTbl GENERATE ((PRODUCT_NAME == 'CAKE' AND PRODUCT_NAME == 'CHICKEN') ? ORDER_ID : 0) AS order_both;

从这里返回的只是 0 这是 else 语句。

我做错了什么?

【问题讨论】:

    标签: hadoop apache-pig


    【解决方案1】:

    您的 bincond 工作正常 - 因为它位于 FOREACH 内,它会单独检查每一行数据。因此,每一行将只有一个PRODUCT_NAME 的值,因此它不能同时是'CAKE''CHICKEN'

    根据您想要做的,我将 use GROUP BY 分组到 ORDER_ID 然后 filterPRODUCT_NAME 袋子只包含 'CAKE''CHICKEN' 使用 nested foreach。最后,将数据过滤到“非空”包中。像这样的:

    groupedData = GROUP  joinTbl BY ORDER_ID;
    
    /* Structure:
    ---------------------------------------------------------------------------------------------------------------------------------
    | groupedData | group | joinTbl: bag({PRODUCT_ID, PRODUCT_NAME, ORDER_ID, PRODUCT_ID, CUSTOMER_ID, SALESPERSON_ID, UNIT_PRICE}) |
    ---------------------------------------------------------------------------------------------------------------------------------
    |             | 10946 | {(11, CAKE, 10946, 11, 83, 1, 31)}                                                                      |
    |             | 11077 | {(11, CAKE, 11077, 11, 65, 1, 31), (14, CHICKEN,  11077, 14, 65, 1, 23.25)}                             |
    ---------------------------------------------------------------------------------------------------------------------------------
    */
    
    cakeChickenIds = FOREACH groupedData {
        cakes = FILTER joinTbl BY PRODUCT_NAME == 'CAKE';
        chickens = FILTER joinTbl BY PRODUCT_NAME == 'CHICKEN';
        GENERATE group AS ORDER_ID,
        cakes,
        chickens;
    }
    
    /* Structure:
    ------------------------------------------------------------------------------------------
    | cakeChickenIds | ORDER_ID | cakes: bag({PRODUCT_NAME}) | chickens: bag({PRODUCT_NAME}) |
    ------------------------------------------------------------------------------------------
    |                | 10946    | {(CAKE)}                   | {()}                          |
    |                | 11077    | {(CAKE)}                   | {(CHICKEN)}                   |
    ------------------------------------------------------------------------------------------
    */
    
    -- Both cakes and chickens bags will not be empty if ordered both
    cakeChickenOrders = FILTER cakeChickenIds BY NOT IsEmpty(cakes) AND NOT IsEmpty(chickens);
    

    【讨论】:

    • 嗨,Paul,您能否解释一下语法的最初开头 - 为什么是 FOREACH (GROUP joinTbl BY ORDER_ID)?如果您可以提供上述另一组语法但不使用大括号,我将不胜感激。我想如果是一行一行的话,我会搞定的。
    • 没有大括号就无法求解——需要嵌套的 FOREACH。将使用相关文档的链接更新答案。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2011-12-10
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多