【发布时间】:2017-02-09 17:18:39
【问题描述】:
我正在研究棒球数据集:
data(baseball, package="plyr")
library(dplyr)
baseball[,1:4] %>% head
id year stint team
4 ansonca01 1871 1 RC1
44 forceda01 1871 1 WS3
68 mathebo01 1871 1 FW1
99 startjo01 1871 1 NY2
102 suttoez01 1871 1 CL1
106 whitede01 1871 1 CL1
首先,我想按球队对数据集进行分组,以便找出每支球队出现的第一年,以及每支球队曾经效力过的不同球员的数量:
baseball[,1:4] %>% group_by(team) %>%
summarise("first_year"=min(year), "num_distinct_players"=n_distinct(id))
# A tibble: 132 × 3
team first_year num_distinct_players
<chr> <int> <int>
1 ALT 1884 1
2 ANA 1997 29
3 ARI 1998 43
4 ATL 1966 133
5 BAL 1954 158
现在我想添加一列,显示任何球员 (id) 为相关球队效力的最长年数。为此,我需要以某种方式按现有组(团队)中的玩家分组,并选择最大行数。我该怎么做?
【问题讨论】:
-
您加载了
plyr,但根本没有使用它。我建议只使用dplyr,除非你真的需要plyr功能。 -
@Gregor 我认为
baseball数据集来自plyr