【发布时间】:2019-07-17 21:57:58
【问题描述】:
我有一个具有这种结构的数据框(按 user_id、事件时间排序):
用户 ID
事件时间(以毫秒为单位)
每个 user_id 的先前事件和当前事件之间的时间差(以秒为单位)
例如
user_1 1550844324011 -
用户 1 1550844504351 180
user_2 1550807681932 -
用户_2 1550807780002 98
user_2 1550809800005 2020
用户_2 1550819800005 10000
然后我想在新列中为每个 user_id 设置会话 ID。接下来是逻辑:如果事件之间的时间差超过 900 秒,那么我应该为用户设置新的 session_id。所以结果应该是下一个:
user_1 1550844324011 - 1
user_1 1550844504351 180 1
user_2 1550807681932 - 1
用户_2 1550807780002 98 1
用户_2 1550809800005 2020 2
用户_2 1550819800005 10000 3
我怎样才能正确地做到这一点?请帮帮我。 谢谢
【问题讨论】:
标签: python pandas jupyter-notebook analytics data-mining