【发布时间】:2020-12-11 09:03:14
【问题描述】:
我有一些来自用户的条目以及该用户在我的网站上进行了多少次互动...
我有 340k 行和 70 多列,我想使用 Vaex,但我在做一些简单的事情时遇到了问题,比如删除重复项。
有人可以帮我看看怎么做吗?
import pandas as pd
df = pd.DataFrame({'user': ['Bob', 'Bob', 'Alice', 'Alice', 'Alice', "Ralph", "Ralph"],
'date': ['2013-12-05', '2014-02-05', '2013-11-07', '2014-04-22', '2014-04-30', '2014-04-20', '2014-05-29'],
'interaction_num': ['1', '2', '1', '2', '3', '1','2']})
我希望获得与 pandas.drop_duplicates(keep="last") 函数相同的结果
df.drop_duplicates('user', keep='last', inplace=True)
使用 Vaex 的预期结果应该是:
user date interaction_num
1 Bob 2014-02-05 2
4 Alice 2014-04-30 3
6 Ralph 2014-05-29 2
【问题讨论】:
-
这能回答你的问题吗? Drop duplicate rows in python vaex
标签: python-3.x vaex