【问题标题】:Redshift Row_Number() Query with partitions that restartRedshift Row_Number() 查询重新启动的分区
【发布时间】:2020-09-04 18:10:57
【问题描述】:

我有带有 id、timestamp(ts) event、capital_event_bool 和 prev_event_capital_bool 的数据。

id   ts          event   capital_event_bool    prev_event_capital_bool
001   00:01       a          0                     0
002   00:02       b          0                     0
002   00:03       b          0                     0
002   00:04       b          1                     0
002   00:05       c          0                     1
003   00:03       c          0                     0
003   00:04       b          0                     0
003   00:05       b          1                     0
003   00:06       b          0                     1
003   00:07       b          0                     0
003   00:08       b          1                     0

只有“b”事件可以有一个 capital_event_bool = True。 我想要完成的是有一种方法来计算所有capital_event_bool = False b 事件之前每个capital_event_bool = 每个id 的True 事件。我原本以为我可以通过 Redshift 中的 row_number() 窗口函数来实现这一点

ROW_NUMBER() OVER (PARTITION BY id, event, capital_event_bool  ORDER BY ts) AS row_num

但让我感到困惑的部分是如何在每个 capital_event_bool = True 事件后重新开始计数。如果行编号将在每个 capital_event_bool = True 事件处停止然后重新开始,那很好,因为我可以使用带有 capital_event_bool 的 case 语句来达到我的最终结果。

row_num      DESIRED only row_num       Final Desired Result   
1              1                                0
1              1                                0
2              2                                0
1              3                                2
1              1                                0
2              2                                0
1              1                                0
1              2                                1
2              1                                0
3              2                                0 
2              3                                2

【问题讨论】:

    标签: sql amazon-redshift


    【解决方案1】:

    这是一种孤岛问题。基本上,您需要通过“b”列中“1”的数量来定义数据的子集。为此,capital_event_bool 的逆和完全符合您的要求。然后,您可以在该组上使用窗口函数:

    select t.*,
           (case when capital_event_bool = 1
                 then sum( (event = 'b')::int ) over (partition by id, grp) - 1
                 else 0
            end) as final_result
    from (select t.*,
                 sum(capital_event_bool) over (partition by id order by ts desc) as grp
          from t
         ) t
    

    【讨论】:

    • 一些细节对我来说有点不对劲(即 (event = 'b')::int) 在特定实例中引发了错误,但总体思路是正确的,并且进行了少量修改和集成到我的用例中,它起作用了。谢谢!
    猜你喜欢
    • 1970-01-01
    • 2014-12-10
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-10-26
    • 1970-01-01
    相关资源
    最近更新 更多