【发布时间】:2017-06-09 20:43:04
【问题描述】:
我的数据框如下所示:
df_in = pd.DataFrame(data={'mol1':['cpd1','cpd2', 'cpd3'], 'mol2': ['cpd2','cpd1', 'cpd4'], 'sim': [0.8,0.8,0.9]})
print(df_in)
mol1 mol2 sim
0 cpd1 cpd2 0.8
1 cpd2 cpd1 0.8
2 cpd3 cpd4 0.9
这对 (cpd1, cpd2) 出现了两次,尽管每个元素不属于同一列。
我想删除这些重复项以得到以下结果:
df_out = pd.DataFrame(data={'mol1':['cpd1', 'cpd3'], 'mol2': ['cpd2', 'cpd4'], 'sim': [0.8,0.9]})
print(df_out)
mol1 mol2 sim
0 cpd1 cpd2 0.8
1 cpd3 cpd4 0.9
如果我忽略第三列,Pythonic way of removing reversed duplicates in list 中有描述的解决方案,但我必须保留此列。
【问题讨论】:
标签: python python-3.x pandas duplicates