【发布时间】:2019-05-03 23:18:29
【问题描述】:
我希望删除组“内”的重复项。我怎样才能以最有效的方式做到这一点?
我曾尝试仅按 ID 对数据进行分组,但由于公司可以在不同年份进行相同类型的投资,这种方法会导致我得出错误的结果。
我有这样的数据:
+----+-----------+-----------+---------------+
| ID | Type | seed_year | series_a_year |
+----+-----------+-----------+---------------+
| 1 | seed | 2014 | 0 |
| 2 | seed | 2014 | 0 |
| 2 | seed | 2015 | 0 |
| 3 | seed | 2012 | 0 |
| 3 | series_a | 0 | 2014 |
| 3 | series_a | 0 | 2015 |
+----+-----------+-----------+---------------+
我想要的输出在哪里:
+----+----------+-----------+---------------+
| ID | Type | seed_year | series_a_year |
+----+----------+-----------+---------------+
| 1 | seed | 2014 | 0 |
| 2 | seed | 2014 | 0 |
| 3 | seed | 2012 | 0 |
| 3 | series_a | 0 | 2014 |
+----+----------+-----------+---------------+
我想保留第一轮(最早的)融资。
【问题讨论】:
-
你在
df.drop_duplicates(subset=['ID', 'Type'])之后吗?
标签: python pandas pandas-groupby