【发布时间】:2021-10-17 03:31:40
【问题描述】:
我的数据框有一个类别和子类别列,然后是一个包含有时重复的字符串的列。
我的问题是针对每个类别(CAT A),哪些字符串在子类别(CAT B)中重复
| CAT A | CAT B | Strings |
|---|---|---|
| A1 | B1 | String1 |
| A1 | B1 | String2 |
| A1 | B1 | String3 |
| A1 | B2 | String4 |
| A1 | B2 | String5 |
| A1 | B2 | String1 |
| A2 | B1 | String1 |
| A2 | B1 | String2 |
| A2 | B1 | String3 |
| A2 | B2 | String4 |
| A2 | B2 | String5 |
| A2 | B2 | String6 |
我正在寻找的输出
A1
Repeated strings in B1 and B2
"String1"
---
A2
Repeated strings in B1 and B2
None
我对如何分组和比较组感到困惑。
谢谢
【问题讨论】:
-
这能回答你的问题吗? Find duplicates with groupby in Pandas