【发布时间】:2020-09-08 18:37:07
【问题描述】:
我有一个数据集,其中每一行代表一个学生的回答。每列代表一个教师评价问题。
StudentId Q1 Q2 Q3 Q4 SystemTime
1 NA 5 2 NA 09:01:07.2123
2 1 4 4 NA 09:03:01.3145
2 NA 4 4 1 09:03:02.6145
3 1 3 NA 2 09:47:17.6541
3 1 NA NA 5 10:01:17.2343
3 3 NA 1 NA 10:12:01.3435
4 NA NA 1 2 12:07:13.1187
我的目标是 1) 保留我正在做的最新学生回复
df %>%
group_by(StudentId) %>%
slice(which.max(hms(df $SystemTime)))
StudentId Q1 Q2 Q3 Q4 SystemTime
1 NA 5 2 NA 09:01:07.2123
2 NA 4 4 1 09:03:02.6145
3 3 NA 1 NA 10:12:01.3435
4 NA NA 1 2 12:07:13.1187
我还想根据学生 (StudentID) 之前的回复来估算最近回复中的缺失数据。最终预期结果如下图
StudentId Q1 Q2 Q3 Q4 SystemTime
1 NA 5 2 NA 09:01:07.2123
2 1 4 4 1 09:03:02.6145
3 3 3 1 5 10:12:01.3435
4 NA NA 1 2 12:07:13.1187
非常感谢任何建议。
【问题讨论】:
标签: r dplyr imputation