【发布时间】:2019-08-08 11:29:39
【问题描述】:
我的数据集看起来像
我正在尝试 2 个函数来清理 df - 首先删除 df 中所有相等的组合 - 这意味着如果相同的 id 像第 1 行和第 3 行一样组合在一起,它会删除它,但是当我尝试第二个函数时然后删除每列中的任何重复项 - 它运行没有错误,但实际的重复项没有被删除?
def remove_dup_combos(df):
u = df.filter(like='id').values
m = pd.DataFrame(np.sort(u, axis=1)).duplicated()
df = df[~m]
return df
def remove_dups(df):
df = df = df.drop_duplicates(['id1', 'id2'])
return df
【问题讨论】:
标签: python-3.x pandas dataframe duplicates data-analysis