【发布时间】:2017-05-24 03:19:27
【问题描述】:
我有这样的记录
raw_data = {
'subject_id': ['1', '2', '2', '3', '3'],
'name': ['A', 'B', 'B', 'C', 'D'],
'age_group' : [1, 2, 2, 1, 1]}
df = pd.DataFrame(raw_data, columns = ['subject_id', 'name','age_group'])
其中包含一个(重复的)ID 和一些额外的列。下面
ids = df.subject_id
df[ids.isin(ids[ids.duplicated()])]
将只返回重复的记录。现在我想更好地理解
- 一样
- 不同
对于每个重复的记录,即在这种情况下,我希望接收有问题的重复 ID 以及行不同的相应列。
subject_id name
1 2 B
2 2 B
3 3 C
4 3 D
【问题讨论】:
-
你能举一个你正在寻找的输出的例子吗?
-
不是已经包含了吗?我正在按 Id 查找重复的行,并且只想查看值不同的列
-
我认为我的困惑来自于查看
subject_id == 2,其中age_group不同但不包括在内,而您确实有name,这对于这些行没有区别。 -
我看到 - 更新了示例。
标签: python pandas duplicates