是否可以用 numpy 向量化替换 pandas 中的这个嵌套循环以加快代码处理速度？答案

【问题标题】：Is it possible to replace this nested loop in pandas with numpy vectorization to speed up code processing?是否可以用 numpy 向量化替换 pandas 中的这个嵌套循环以加快代码处理速度？
【发布时间】：2020-06-16 13:25:19
【问题描述】：

数据：

orderid         shopid  userid      event_time            timestamp 
31077182438530  10151   154282716   2019-12-27 00:33:02   1577406782    
31078679118082  10151   154282716   2019-12-27 00:58:00   1577408280    
31079250834942  10151   154282716   2019-12-27 01:07:30   1577408850    
31086252001110  10151   12825914    2019-12-27 03:04:12   1577415852    
31087365203493  10151   102963110   2019-12-27 03:22:46   1577416966

当前代码：

shopid = df.shopid.values
userid = df.userid.values
event_time = df.timestamp.values
flag = np.zeros(shopid.shape, dtype=int)

current_shop = 0
for i in range(len(df)):
    if shopid[i] != current_shop:
        current_shop = shopid[i]
        prev_time = event_time[i] - 3600
        users = {userid[i]: 1}
    for j in range(i+1, len(df)):
        if (current_shop == shopid[j]) and (event_time[j] - event_time[i] <= 3600):
            if userid[j] not in users:
                users[userid[j]] = 0
            users[userid[j]] += 1
        else:
            break
    while j - i / len(users) < 3 and event_time[j-1] - prev_time > 3600:
        j -= 1
        users[userid[j]] -= 1
        if users[userid[j]] == 0:
            users.pop(userid[j])
    if j - i / len(users) >= 3:
        flag[i:j] = 1
    prev_time = event_time[i]

基本上我要做的是针对每个商店，找出哪个用户在任何间隔的 1 小时内下了 3 个或更多订单。所以上面我循环遍历每个商店（第一个循环），然后循环遍历每个商店的订单（第二个循环）并检查时间是否在 1 小时内，然后将用户添加到带有订单计数的字典中。之后我做了一个递减循环（第三个循环）来计算订单/唯一用户的数量，如果小于 3，我会将用户从字典中弹出。最后，检查相反的条件，如果有效，我将标志设置为 1。然后使用标志来识别特定的 orderid、相应的商店和用户 id。

预期输出：

orderid         shopid  userid      event_time            timestamp     flag
31077182438530  10151   154282716   2019-12-27 00:33:02   1577406782    1
31078679118082  10151   154282716   2019-12-27 00:58:00   1577408280    1
31079250834942  10151   154282716   2019-12-27 01:07:30   1577408850    1
31086252001110  10151   12825914    2019-12-27 03:04:12   1577415852    0
31087365203493  10151   102963110   2019-12-27 03:22:46   1577416966    0

【问题讨论】：

我不知道解决时间范围过滤器的完整答案，但由于您想为每个商店的每个用户执行此过滤器，您可以用 @987654324 替换对商店和用户进行分类的手动循环@ 并从那里开始工作。
这就是我所做的，但无法真正弄清楚如何在小组中解决这些问题。例如计算每个商店在一小时内的订单/唯一用户数。还有 220K+ 订单，所以性能是另一个 qn

标签： python pandas numpy vectorization

【解决方案1】：

你可以试试这个吗？

df['event_time'] = pd.to_datetime(df['event_time'])

这应该会按小时为您提供每家商店的计数

df.groupby(['shopid','userid', pd.Grouper(key='event_time',freq='H')]).count()

df['flag'] = df.groupby(['shopid','userid', pd.Grouper(key='event_time',freq='H')])['userid'].count().values

这是我得到的输出

shopid  userid  event_time  orderid timestamp
0   10151   12825914    2019-12-27 03:00:00 1   1
1   10151   12825914    2019-12-27 07:00:00 1   1
2   10151   102963110   2019-12-27 03:00:00 1   1
3   10151   102963110   2019-12-27 04:00:00 1   1
4   10151   154282716   2019-12-27 00:00:00 2   2
5   10151   154282716   2019-12-27 01:00:00 1   1
6   10151   154282716   2019-12-27 03:00:00 1   1
7   10151   154282716   2019-12-27 04:00:00 1   1
8   10151   154282716   2019-12-27 14:00:00 1   1

【讨论】：