【问题标题】:How to drop duplicates in Vaex?如何在 Vaex 中删除重复项?
【发布时间】:2020-12-11 09:03:14
【问题描述】:

我有一些来自用户的条目以及该用户在我的网站上进行了多少次互动...

我有 340k 行和 70 多列,我想使用 Vaex,但我在做一些简单的事情时遇到了问题,比如删除重复项。

有人可以帮我看看怎么做吗?

import pandas as pd

df = pd.DataFrame({'user': ['Bob', 'Bob', 'Alice', 'Alice', 'Alice', "Ralph", "Ralph"], 
                   'date': ['2013-12-05', '2014-02-05', '2013-11-07', '2014-04-22', '2014-04-30',  '2014-04-20', '2014-05-29'],
                   'interaction_num': ['1', '2', '1', '2', '3', '1','2']})

我希望获得与 pandas.drop_duplicates(keep="last") 函数相同的结果

df.drop_duplicates('user', keep='last', inplace=True)

使用 Vaex 的预期结果应该是:

    user    date    interaction_num
1   Bob     2014-02-05  2
4   Alice   2014-04-30  3
6   Ralph   2014-05-29  2

【问题讨论】:

标签: python-3.x vaex


【解决方案1】:

Duplicate question

似乎还没有,但我们应该期待这个功能在某个时候。

同时还有an attempt from the creator of vaex

【讨论】:

    猜你喜欢
    • 2020-11-06
    • 2020-09-08
    • 1970-01-01
    • 1970-01-01
    • 2022-12-18
    • 2017-06-21
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多