【发布时间】:2022-01-12 01:48:42
【问题描述】:
我有这个带有电子邮件标题的 df。我需要消除 Subject 相同且 Source 不同的所有重复项。我花了几个小时试图找出解决方案或找到类似的案例......
| Date | From | Subject | Source |
|---|---|---|---|
| 12/06/21 | Sender1 | Test123 | Inbox |
| 12/06/21 | Sender2 | Confirm | Inbox |
| 12/06/21 | Sender1 | Test123 | Sent |
| 12/06/21 | Sender3 | Test_on | Inbox |
| 12/06/21 | Sender3 | Test_on | Inbox |
实际上应该从上面的表格中删除 subject = 'Test123' 的行。
| Date | From | Subject | Source |
|---|---|---|---|
| 12/06/21 | Sender2 | Confirm | Inbox |
| 12/06/21 | Sender3 | Test_on | Inbox |
| 12/06/21 | Sender3 | Test_on | Inbox |
【问题讨论】:
-
类似
df[df['Subject'].duplicated(keep=False) & ~df['Source'].duplicated(keep=False)]?
标签: python pandas duplicates drop