【发布时间】:2019-04-12 01:37:48
【问题描述】:
我有以下数据框:
| col1 | col2 | col3 | col4 |
|------|------|------|------|
| a | 1 | 2 | abc |
| b | 1 | 2 | abc |
| c | 3 | 2 | def |
对于 col1 的唯一值,我想要基于 col2、col3、col4 重复的行。
在这种情况下,输出将是:
| col1 | col2 | col3 | col4 |
|------|------|------|------|
| a | 1 | 2 | abc |
| b | 1 | 2 | abc |
df.duplicated 不包括 col1 将不起作用,因为我需要 col1 信息包含在结果中。我有数百万行,如果没有这些直接信息,将很难进行进一步的分析。我不能将 col1 设置为索引,因为需要将其他一些值设置为索引。
是否有 pythonic/pandaic 方法来实现这一点?
【问题讨论】:
-
不确定我是否理解
col1的作用。如果col1是a对于两行,您是否不想要这些行? -
@busybear 没有。我不希望它们用于 col1 的非唯一值。