【发布时间】:2018-11-23 00:45:28
【问题描述】:
我有一个数据集,其中许多行几乎相同,这意味着它们对于除 C 列之外的所有字段具有相同的值。
A B C D ..... Z
0 50 'Ohio' 'Rep' 3 45
1 50 'Ohio' 'Dem' 3 45
2 40 'Kansas' 'Dem' 34 1
3 30 'Kansas' 'Dem' 45 2
4 55 'Texas' 'Rep' 2 7
....
38 55 'Texas' 'Dem' 2 7
我想识别除 C 列外所有相同的行,但在 C 列内我只想找到“Rep”和“Dem”的组合。所以我不希望列 C 的 2 行相同,例如 'Rep' 和 'Rep'。
A B C D ......Z
0 50 'Ohio' 'Rep' 3 45
1 50 'Ohio' 'Dem' 3 45
4 55 'Texas' 'Rep' 2 7
38 55 'Texas' 'Dem' 2 7
我在所有列(除了 C)上都使用了重复的方法,它提供了所有相同的行。但是,它不会导致重复,即每个带有“Rep”的重复行都恰好有一个带有“Dem”的重复行。
【问题讨论】:
标签: pandas dataframe duplicates