【发布时间】:2020-11-06 06:32:58
【问题描述】:
我正在使用 python vaex,但我不知道如何在数据框中删除重复的行。例如在 pandas 中存在方法drop_duplicates()。 vaex有没有类似的功能?
【问题讨论】:
我正在使用 python vaex,但我不知道如何在数据框中删除重复的行。例如在 pandas 中存在方法drop_duplicates()。 vaex有没有类似的功能?
【问题讨论】:
似乎还没有,但我们应该期待这个功能在某个时候。
【讨论】:
我采用了这种groupby 方法:
import vaex
df = vaex.from_arrays(x=[1, 2, 3, 4, 1, 2, 3, 4],
s=['a', 'b', 'c', 'd', 'A', 'b', 'c', 'D'],
q=[0, 0, 0, 0, 0, 1, 0, 0])
df['new'] = df.x
dfg = df.groupby(['x', 's', 'q']).agg({'new': "sum"})['x', 's', 'q']
dfg
所以基本上你添加了某种数字列,然后对原始列进行分组并在新列上求和,然后去掉新的总和;保留原始列的唯一(分组)列表。
【讨论】:
vaex 肯定没有核心,所以太大而无法放入内存不是问题吗?