【发布时间】:2017-11-28 19:54:31
【问题描述】:
这是我的示例数据集:
Name Course Cateory
1: Jason ML PT
2: Jason ML DI
3: Jason ML GT
4: Jason ML SY
5: Jason DS SY
6: Jason DS DI
7: Nancy ML PT
8: Nancy ML SY
9: Nancy DS DI
10: Nancy DS GT
11: James ML SY
12: John DS GT
我想删除重复的行以在数据框中拥有唯一的行。删除重复行基于category 列中的值。 category 列中的值的偏好按此顺序 {'PT','DI','GT','SY'} 给出。
我的输出数据框如下所示:
Name Course Cateory
1: Jason ML PT
2: Jason DS DI
3: Nancy ML PT
4: Nancy DS DI
5: James ML SY
6: John DS GT
目前,我正在使用for 循环和if 条件的组合。由于输入数据框很大(1000 万行),因此需要很长时间。有没有更好更有效的方法来执行相同的操作?
【问题讨论】:
-
根据
Name和Course列,您似乎正在删除。再次检查。 -
在某种程度上你是对的。但删除仍然取决于
category列和特定顺序。 -
这个问题并没有说清楚。首先按
Category列排序,然后根据Name和Course删除重复项。
标签: r