【发布时间】:2017-08-16 05:04:59
【问题描述】:
我有一个Dataframe,如下:
df = pd.DataFrame({'first' : ['John', 'Mary','Peter'],
'last' : ['Mary', 'John','Mary']})
df
Out[700]:
first last
0 John Mary
1 Mary John
2 Peter Mary
当行包含相同的值时,我想删除重复项 在这种情况下,预期的输出将是:
first last
0 John Mary
2 Peter Mary
以下是我目前的做法:
df['DropKey']=df.apply(lambda x: ''.join(sorted(pd.Series(x))),axis=1)
df.drop_duplicates('DropKey')
有没有有效的方法来实现这一点?
我的真实数据大小:
df.shape
Out[709]: (10000, 607)
【问题讨论】:
-
您能否提供有关此 SO 答案的不良信息 -- stackoverflow.com/a/48346011/6361531
-
@ScottBoston 确定
-
@piRSquared 将在 value_count 中添加 sort=False 会解决这个问题吗?谢谢楼主指出
-
@piRSquared 是的,我会解决这个问题,添加 sort_values,谢谢 :-)