【问题标题】:Distinct Count Dates by timeframe在滚动时间范围内按 ID 区分计数日期
【发布时间】:2020-12-23 05:20:41
【问题描述】:

我正试图从一个非常大的数据集中找出每日频繁访问者的趋势。在这种情况下,常访问者是指在连续 3 天的周期中,在不同的 2 天使用的访问者 ID。

我的数据集如下所示:

ID |    Date    | Location | State | Brand |
1  | 2020-01-02 |    A     |  CA   |  XYZ  |
1  | 2020-01-03 |    A     |  CA   |  BCA  |
1  | 2020-01-04 |    A     |  CA   |  XYZ  |
1  | 2020-01-06 |    A     |  CA   |  YQR  |
1  | 2020-01-06 |    A     |  WA   |  XYZ  |
2  | 2020-01-02 |    A     |  CA   |  XYZ  |
2  | 2020-01-05 |    A     |  CA   |  XYZ  |

这就是我想要的结果。访问列中的计数等于日期列中的不同天数,每个 ID 为 -2 天。所以对于 2020-01-05 的 ID 1,3 号和 4 号都有访问,所以计数是 2。

   Date    | ID | Visits | Frequent Prior 3 Days
2020-01-01 |Null|  Null  | Null
2020-01-02 |  1 |   1    | No
2020-01-02 |  2 |   1    | No
2020-01-03 |  1 |   2    | Yes
2020-01-03 |  2 |   1    | No
2020-01-04 |  1 |   3    | Yes
2020-01-04 |  2 |   1    | No
2020-01-05 |  1 |   2    | Yes
2020-01-05 |  2 |   1    | No
2020-01-06 |  1 |   2    | Yes
2020-01-06 |  2 |   1    | No
2020-01-07 |  1 |   1    | No
2020-01-07 |  2 |   1    | No
2020-01-08 |  1 |   1    | No
2020-01-09 |  1 |  null  | Null

我最初尝试使用以下行来获取访问列的结果,但在该 ID 最先达到 3 的任何日期,每个连续行中的结果都是 3。

,
count(ID) over (Partition by ID order by Date ASC rows between 3 preceding and current row) as visits

我搜索了论坛,但每个有点相似的问题似乎都涉及计算值而不是日期,并且无法弄清楚如何调整以获得我需要的东西。非常感谢任何帮助。

【问题讨论】:

  • 你已经标记了 MySQL 和 SQL Server...请删除不必要的。

标签: sql date datetime count window-functions


【解决方案1】:

您可以按用户和日期聚合数据集,然后使用带有范围框架的窗口函数查看前三行。

您没有告诉您正在运行哪个数据库 - 并非所有数据库都支持窗口范围,也没有相同的文字间隔语法。在标准 SQL 中,您会:

select 
    id, 
    date, 
    count(*) cnt_visits
    case 
        when sum(count(*)) over(
            partition by id 
            order by date 
            range between interval '3' day preceding and current row
        ) >= 2
        then 'Yes'
        else 'No'
    end is_frequent_visitor
from mytable
group by id, date

另一方面,如果您想要记录每个用户和每一天(没有访问时的事件),那么它有点不同。可以先生成数据集,然后带表带left join

select
    i.id,
    d.date,
    count(t.id) cnt_visits,
    case 
        when sum(count(t.id)) over(
            partition by i.id 
            order by d.date 
            rows between '3' day preceding and current row
        ) >= 2
        then 'Yes'
        else 'No'
    end is_frequent_visitor
from (select distinct id from mytable) i
cross join (select distinct date from mytable) d
left join mytable t 
    on  t.date = d.date
    and t.id   = i.id
group by i.id, d.date

【讨论】:

  • 这非常有帮助。稍加修改,几乎可以得到我需要的答案。唯一剩下的问题是,虽然每一天都在数据集中表示,但并不是每个 ID 都在给定的一天访问。在上面的示例中,ID 1 不在 5 日访问,但输出包含该日期和 .我得到的结果不包括 ID 未访问的日期的行。
  • @shuberlozml:第二个查询处理。
  • 非常感谢!这太完美了!
【解决方案2】:

我倾向于通过使用cross join 扩展日期和访问者来解决此问题,然后仅使用窗口函数。假设您在数据中有所有日期:

select i.id, d.date,
       count(t.id) over (partition by i.id
                         order by d.date 
                         rows between 2 preceding and current row
                        ) as cnt_visits,
       (case when count(t.id) over (partition by i.id
                                    order by d.date 
                                    rows between 2 preceding and current row
                                   ) >= 2
             then 'Yes' else 'No'
        end) as is_frequent_visitor
from (select distinct id from t) i cross join
     (select distinct date from t) d left join
     (select distinct id, date from t) t
     on t.date = d.date and
        t.id = i.id;

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2020-11-19
    • 1970-01-01
    • 2018-05-19
    • 1970-01-01
    • 2012-08-06
    • 2018-04-13
    • 2015-03-13
    • 1970-01-01
    相关资源
    最近更新 更多