【问题标题】:How to aggregate values in two different columns under different criteria?如何在不同条件下聚合两个不同列中的值?
【发布时间】:2021-07-05 18:47:34
【问题描述】:

这是我要处理的数据表:

CUST_REF ACC_NO JOINT_ACC PRODUCT NUM_OF_ACC CALC_FEE ACTUAL_FEE DIFF
100 ABC123 N ACCOUNT 4 140.68 104.14 36.54
100 ABC456 N STOCKS 4 41.72 30.24 11.48
100 XYZ123 N ISA 4 48.26 32.27 15.99
100 XYZ444 Y PENSION 4 3.15 0.00 3.15

我现在需要处理费用上限的影响,该上限因帐户是否为共同持有而异。 JOINT_ACC字段中的Y表示联名账户。

所有个人账户的费用上限为每位客户每月 166.67 (JOINT_ACC = 'N') - 即所有个人账户的总费用不能超过 166.67。但是,对于联名账户,上限适用于个人账户级别。换句话说,当 JOINT_ACC = 'Y' 时的 CALC_FEE 不能超过 166.67 - 在这种情况下,帐户的费用远低于 166.67,所以它保持原样(我不关心实际费用为 0,这是一个单独的问题伟大与美好)。

在此示例中,实际费用已经以某种方式考虑了此信息 - 如果您将 ACTUAL_FEE 列中的三个条目相加,则它们加起来为 166.67。

因此我想:

  • 根据 JOINT_ACC 标志聚合 CALC_FEE 条目,并应用基于 CASE 的条件以达到费用上限
  • 汇总个人账户和联名账户的 ACTUAL_FEE(我不想在此处应用费用上限,因为我的目标是将计算的费用与实际收取的费用进行比较)。

所以实际上我理想的输出表应该是这样的:

CUST_REF ACC_NO JOINT_ACC PRODUCT NUM_OF_ACC CALC_FEE ACTUAL_FEE DIFF
100 ABC123 N ACCOUNT 4 166.67 166.67 0.00
100 ABC456 N STOCKS 4 166.67 166.67 0.00
100 XYZ123 N ISA 4 166.67 166.67 0.00
100 XYZ444 Y PENSION 4 3.15 0.00 0.00

这是我迄今为止尝试过的:

    SELECT 
        A.CUST_REF,
        A.ACC_NO,
        A.JOINT_ACC,
        A.PRODUCT,
        A.NUM_OF_ACC,
        SUM(A.ACTUAL_FEE) OVER (PARTITION BY A.CUST_REF, A.ACC_NO, A.JOINT_ACC) AS FEES_CHARGED,
        
        CASE
           WHEN A.JOINT_ACC_IND = 'N'
             THEN
                (CASE
                    WHEN (SUM(B.CALC_FEE) OVER PARTITION BY (A.CUST_REF, A.ACC_NO)) > 166.67 THEN (166.67)
                    ELSE (SUM(B.CALC_FEE) OVER PARTITION BY (A.CUST_REF, A.ACC_NO))
                 END)
           WHEN A.JOINT_ACC_IND = 'Y'
             THEN
                (CASE
                    WHEN (C.CALC_FEE) > 166.67 THEN (166.67)
                    ELSE (C.CALC_FEE)
                 END)
           END
               AS ADJ_FEE_CALC,

         ((CASE
           WHEN A.JOINT_ACC_IND = 'N'
             THEN
                (CASE
                    WHEN (SUM(B.CALC_FEE) OVER PARTITION BY (A.CUST_REF, A.ACC_NO)) > 166.67 THEN (166.67)
                    ELSE (SUM(B.CALC_FEE) OVER PARTITION BY (A.CUST_REF, A.ACC_NO))
                 END)
           WHEN A.JOINT_ACC_IND = 'Y'
             THEN
                (CASE
                    WHEN (C.CALC_FEE) > 166.67 THEN (166.67)
                    ELSE (C.CALC_FEE)
                 END)
           END) - (SUM(A.ACTUAL_FEE) OVER (PARTITION BY A.CUST_REF, A.ACC_NO, A.JOINT_ACC))) AS DIFF

FROM V_FEES_TABLE A

     LEFT JOIN V_FEES_TABLE B ON A.CUST_REF = B.CUST_REF AND A.ACC_NO = B.ACC_NO AND B.JOINT_ACC = 'N'
     LEFT JOIN V_FEES_TABLE C ON A.CUST_REF = C.CUST_REF AND A.ACC_NO = C.ACC_NO AND C.JOINT_ACC = 'Y'

此查询需要很长时间才能运行(我在几分钟前检查时已超过一个小时)。显然,我在做一些根本错误/低效的事情。我不知道这是否有所不同,但V_FEES_TABLE 是一个构建在另一个视图之上的视图,该视图又引用了数据库中的核心表。

请帮忙!提前致谢。


编辑:

我有几种情况,下面建议的代码会引发误报:

CUST_REF ACC_NO JOINT_ACC PRODUCT NUM_OF_ACC CALC_FEE ACTUAL_FEE CUST_FEE_CALC ACTUAL_CUST_FEE_CHARGED DIFF
100 ABC123 N ACCOUNT 1 95.45 94.29 166.67 379.3 -212.63
100 ABC123 N ACCOUNT 1 95.45 95.36 166.67 379.3 -212.63

我用来重新运行该工作的代码是:

    SELECT 
            A.CUST_REF,
            A.ACC_NO,
            A.JOINT_ACC,
            A.PRODUCT,
            A.NUM_OF_ACC,
            A.CALC_FEE,
            A.ACTUAL_FEE,
    
    
    (CASE WHEN JOINT_ACC = 'Y' AND CALC_FEE < 166.67
                 THEN CALC_FEE
                 WHEN JOINT_ACC = 'Y'
                 THEN 166.67
                 WHEN SUM(CALC_FEE) OVER (PARTITION BY CUST_REF,    JOINT_ACC) < 166.67
                 THEN SUM(CALC_FEE) OVER (PARTITION BY CUST_REF, JOINT_ACC)            
                 ELSE 166.67
             END) as CUST_FEE_CALC,
    
            SUM(A.ACTUAL_FEE) OVER (PARTITION BY A.CUST_REF, A.JOINT_ACC) AS ACTUAL_CUST_FEE_CHARGED,

(CASE WHEN JOINT_ACC = 'Y' AND CALC_FEE < 166.67
                 THEN CALC_FEE
                 WHEN JOINT_ACC = 'Y'
                 THEN 166.67
                 WHEN SUM(CALC_FEE) OVER (PARTITION BY CUST_REF,    JOINT_ACC) < 166.67
                 THEN SUM(CALC_FEE) OVER (PARTITION BY CUST_REF, JOINT_ACC)            
                 ELSE 166.67
             END) - SUM(A.ACTUAL_FEE) OVER (PARTITION BY A.CUST_REF, A.JOINT_ACC) 
              as DIFF

FROM FEES_TABLE A

在某些情况下,同一帐户在同一时期内被计费两次,金额不同 - 实际上,SQL 将其视为两个单独的帐户以进行聚合。这在不经意间扭曲了我自己的计算,因为它加起来是 95.45 的两倍,客户级别的费用为 166.67,考虑到上面基于 Gordon 的解决方案的上限。

我希望 SQL 将计算的客户费用保留在帐户级别汇总,但将实际收取的费用加起来,因为我不确定为什么我在这里看到 94.29 和 95.36 的不同数字。因此,我想看看:

CUST_REF ACC_NO JOINT_ACC PRODUCT NUM_OF_ACC CALC_FEE ACTUAL_FEE CUST_FEE_CALC ACTUAL_CUST_FEE_CHARGED DIFF
100 ABC123 N ACCOUNT 1 95.45 94.29 95.45 189.65 -94.20
100 ABC123 N ACCOUNT 1 95.45 95.36 95.45 189.65 -94.20

我尝试修改PARTITION BY 条件以也包括ACC_NO 列,但没有成功。有什么想法吗?

【问题讨论】:

  • 如果您想让帮助变得真正容易,请将您的示例数据提供为 DDL+DML(或小提琴)。
  • 您好...不幸的是,由于设备不同,我只能在上面的问题中提供我的示例数据 - 如果我可以进一步澄清我的查询,请告诉我..
  • 我找到了根本原因;我的分区能够与您的代码一起修复的源数据存在问题!非常感谢。

标签: sql sql-server tsql aggregate-functions window-functions


【解决方案1】:

我不明白为什么需要任何连接,只是窗口函数。要获得计算的费用:

SELECT FT.*,
       (CASE WHEN JOINT_ACC = 'Y' AND CALC_FEE < 166.67
             THEN CALC_FEE
             WHEN JOINT_ACC = 'Y'
             THEN 166.67
             WHEN SUM(CALC_FEE) OVER (PARTITION BY CUST_REF, JOINT_ACC) < 166.67
             THEN SUM(CALC_FEE) OVER (PARTITION BY CUST_REF, JOINT_ACC)            
             ELSE 166.67
         END) as IMPUTED_CALC_FEE
FROM V_FEES_TABLE FT

【讨论】:

  • 确实非常感谢 - 这肯定有助于我进行聚合 - 尽管我注意到了一个我以前从未见过的极端情况,这导致了一些误报。请您看看我上面的编辑,如果您能就如何调整我的聚合标准提供建议,请告诉我?
猜你喜欢
  • 2020-01-14
  • 2020-07-09
  • 1970-01-01
  • 1970-01-01
  • 2017-08-18
  • 1970-01-01
  • 1970-01-01
  • 2021-07-02
  • 2018-07-12
相关资源
最近更新 更多