Redshift Row_Number() 查询重新启动的分区答案

【问题标题】：Redshift Row_Number() Query with partitions that restartRedshift Row_Number() 查询重新启动的分区
【发布时间】：2020-09-04 18:10:57
【问题描述】：

我有带有 id、timestamp(ts) event、capital_event_bool 和 prev_event_capital_bool 的数据。

id   ts          event   capital_event_bool    prev_event_capital_bool
001   00:01       a          0                     0
002   00:02       b          0                     0
002   00:03       b          0                     0
002   00:04       b          1                     0
002   00:05       c          0                     1
003   00:03       c          0                     0
003   00:04       b          0                     0
003   00:05       b          1                     0
003   00:06       b          0                     1
003   00:07       b          0                     0
003   00:08       b          1                     0

只有“b”事件可以有一个 capital_event_bool = True。我想要完成的是有一种方法来计算所有capital_event_bool = False b 事件之前每个capital_event_bool = 每个id 的True 事件。我原本以为我可以通过 Redshift 中的 row_number() 窗口函数来实现这一点

ROW_NUMBER() OVER (PARTITION BY id, event, capital_event_bool  ORDER BY ts) AS row_num

但让我感到困惑的部分是如何在每个 capital_event_bool = True 事件后重新开始计数。如果行编号将在每个 capital_event_bool = True 事件处停止然后重新开始，那很好，因为我可以使用带有 capital_event_bool 的 case 语句来达到我的最终结果。

row_num      DESIRED only row_num       Final Desired Result   
1              1                                0
1              1                                0
2              2                                0
1              3                                2
1              1                                0
2              2                                0
1              1                                0
1              2                                1
2              1                                0
3              2                                0 
2              3                                2

【问题讨论】：

标签： sql amazon-redshift

【解决方案1】：

这是一种孤岛问题。基本上，您需要通过“b”列中“1”的数量来定义数据的子集。为此，capital_event_bool 的逆和完全符合您的要求。然后，您可以在该组上使用窗口函数：

select t.*,
       (case when capital_event_bool = 1
             then sum( (event = 'b')::int ) over (partition by id, grp) - 1
             else 0
        end) as final_result
from (select t.*,
             sum(capital_event_bool) over (partition by id order by ts desc) as grp
      from t
     ) t

【讨论】：

一些细节对我来说有点不对劲（即 (event = 'b')::int) 在特定实例中引发了错误，但总体思路是正确的，并且进行了少量修改和集成到我的用例中，它起作用了。谢谢！