【发布时间】:2018-10-23 19:40:49
【问题描述】:
我有一个数据集,我想根据(比如说)前三个字符来总结我的数据。实际上,连接列中具有相同 3 个首字母的行。例如:
df
title freq
ACM100 3
ACM200 2
ACM300 2
MAT11 1
MAT21 2
CMP00 3
CMP10 3
我想在标题前3个字符的标题上总结数据库并统计频率。
result:
title freq
ACM 7
MAT 3
CMP 6
如果能在 R 中帮助我,将不胜感激。
【问题讨论】:
-
您的第一步是创建新字段,例如
substr(df$title, 1, 3),然后对其进行常规聚合/汇总。有很多关于 SO(包括 @CalumYou 刚刚发布的group_by(letters) %>% summarise(...))关于组聚合的 Q/A,以及从 base-R 到dplyr和data.table的多种类型的解决方案,具体取决于您当前的工具包。