【发布时间】:2016-07-24 20:30:42
【问题描述】:
我尝试使用 dplyr distinct 来组合行、删除重复项以及删除空白。这是我的数据框:
unique_id school subject grade sex
1 great Math 88
1 great English 78
1 great History 98 male
2 spring Math 65
2 spring English 72 female
2 spring History 84
当我跑步时(谢谢 Akrun):
(r2 <- df %>%
group_by(unique_id) %>%
summarise_each(funs(toString(unique(.)))))
我明白了:
unique_id school subject grade sex
1 great Math, English, History 88,78,98 , male
2 spring English, English, History 65,72,84 , female
我不希望在最后一个变量性别中包含空格或逗号。相反,我希望它看起来如下:
unique_id school subject grade sex
1 great Math, English, History 88,78,98 male
2 spring English, English, History 65,72,84 female
任何尝试在导入时添加 NA,然后在压缩后将其删除,但没有成功。任何想法如何压缩行,但只保留行中的值并忽略空格?谢谢。
【问题讨论】:
-
如果你不想要逗号,为什么要使用
toString? -
这是向我推荐的。你会建议我用什么替换它?
-
将sex列中的空字符串替换为每个unique_id的同性别即可。
-
使用
NAs,他们在那里是有原因的。 -
我倾向于同意 re: NAs,但在这种情况下,有了这个数据框,它们就没用了。