【发布时间】:2020-04-29 20:37:30
【问题描述】:
例如,我有以下数据集(我的真实数据集有超过 100000 行和 70 个变量):
Country Year Flag
Norway 2018 drop: reason1
Norway 2018 drop: reason2
Sweden 2016 drop: reason3
France 2011 drop: reason2
France 2011 drop: reason3
France 2011 drop: reason4
首先,我想通过变量Country和Year对Flag values进行分组,所以我想得到一个这样的表格: p>
Country Year Flag
Norway 2018 drop: reason1, drop: reason2
Sweden 2016 drop: reason3
France 2011 drop: reason2, drop: reason3, drop: reason4
其次,如果Flag列有多个值,我想只留下1,逻辑如下:
如果存在drop: reason1,则将其保留并删除其余部分。如果没有drop: reason1,但有drop: reason2和drop: reason3,那么我们只留下drop: reason2。
最后,我的数据集应该是这样的:
Country Year Flag
Norway 2018 drop: reason1
Sweden 2016 drop: reason3
France 2011 drop: reason2
我想基于 data.table 或 base R 方法来实现它。
如果有任何帮助,我将不胜感激! 至少对于问题的第一部分。
【问题讨论】:
标签: r data.table character aggregate grouping