【发布时间】:2018-02-03 20:48:57
【问题描述】:
我有一个包含三列 timestamp、lecture_id 和 userid 的数据框
我正在尝试编写一个循环来计算在体验特定讲座后放弃(再也没有见过)的学生人数。目标是最终有第四列,显示在听完特定讲座后剩余的学生人数。
我在用 python 写这个时遇到了麻烦,我尝试了一个从未完成的 for 循环(我有 13m 行)。
import pandas as pd
import numpy as np
ids = list(np.random.randint(0,5,size=(100, 1)))
users = list(np.random.randint(0,10,size=(100, 1)))
dates = list(pd.date_range('20130101',periods=100, freq = 'H'))
dft = pd.DataFrame(
{'lecture_id': ids,
'userid': users,
'timestamp': dates
})
我想制作一个新的数据框,向每个参加过 x 讲座的用户显示,有多少人再也没有回来(丢弃)。
【问题讨论】:
标签: python-3.x pandas time-series