【发布时间】:2017-07-14 12:45:56
【问题描述】:
我需要根据单独的源列表计算列表中单词或词组的出现频率。
我有一个作者和研究领域的数据框。每位作者都有一个与其姓名相关的 1 个或多个研究领域(单词/词组)的列表。
有时同一个研究领域不止一次出现,我希望每次都对它们进行计数(即,不是唯一的列表)。
我需要计算作者的研究领域与一组研究领域列表中匹配的次数。
我可以按每个作者进行,但不能针对整个作者列表。
(实际上有4个set list,分为研究类别:生命科学、社会科学等,我需要统计每个研究类别中每位作者研究领域的出现次数,即生命科学领域有多少个他们的名单,他们的名单中有多少社会科学领域,等等。
下面是一个研究类别的简单示例,但在实际示例中,有 4 个独立且独特的“词典”。
test.small <- data.frame(AuthorID=c("Mavis", "Cleotha", "Yvonne"),
RA=c("Fisheries, Fisheries, Geography, Marine Biology", "Fisheries",
"Marine Biology, Marine Biology, Fisheries, Zoology"))
RA.text <- as.character(test.small$RA)
RA.list <- strsplit(RA.text, ", ", perl=TRUE)
lexicon <- c("Fisheries", "Marine Biology")
sum(RA.list[[3]] %in% lexicon)
如何对整个列表执行此操作,分别汇总每个作者的总出现次数
并将该数字总和存储在可用于其他计算的向量中?
【问题讨论】:
-
请不要用那么大的字体写任何东西
-
对不起,digEmAll!不是故意的。看起来 amonk 可能已经为我修好了 - 谢谢!
-
@TessaFrancis 这就是 Monk 存在的原因。