【问题标题】:Drop duplicate rows in python vaex在 python vaex 中删除重复的行
【发布时间】:2020-11-06 06:32:58
【问题描述】:

我正在使用 python vaex,但我不知道如何在数据框中删除重复的行。例如在 pandas 中存在方法drop_duplicates()。 vaex有没有类似的功能?

【问题讨论】:

    标签: python dataframe vaex


    【解决方案1】:

    似乎还没有,但我们应该期待这个功能在某个时候。

    同时还有an attempt from the creator of vaex

    【讨论】:

      【解决方案2】:

      我采用了这种groupby 方法:

      import vaex
      df = vaex.from_arrays(x=[1, 2, 3, 4, 1, 2, 3, 4],
                            s=['a', 'b', 'c', 'd', 'A', 'b', 'c', 'D'],
                            q=[0, 0, 0, 0, 0, 1, 0, 0])
      df['new'] = df.x
      dfg = df.groupby(['x', 's', 'q']).agg({'new': "sum"})['x', 's', 'q']
      dfg
      

      所以基本上你添加了某种数字列,然后对原始列进行分组并在新列上求和,然后去掉新的总和;保留原始列的唯一(分组)列表。

      【讨论】:

      • 这可行,但请记住输出在内存中。如果您的 group-by 输出太大而无法放入 ram,则此方法将不起作用。
      • vaex 肯定没有核心,所以太大而无法放入内存不是问题吗?
      • 确实如此,并且 groupby 聚合也不在意,但生成的数据帧在内存中。因此,在使用大量列进行分组时要小心
      猜你喜欢
      • 2020-12-11
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-12-14
      • 2015-11-16
      • 1970-01-01
      • 2020-05-11
      相关资源
      最近更新 更多