【发布时间】:2018-07-26 00:28:40
【问题描述】:
我有一个数据集 x,其中包含大约 3000 行中的一堆文本 (columns: title, location, contents)。
编辑:一个例子。
标题 |位置 |内容 ... 迪拜 .... ... 迪拜 .... ... 喀土穆 .... ... 喀土穆苏丹 .... ... 雅加达 ....
我有一个位置列表。 locations <- c("DUBAI", "KHARTOUM", "JAKARTA", "Paris")。
现在我想创建一个从迪拜开始的循环,看看它出现在多少列中,然后创建一个带有计数的变量。然后我想移动到位置列表(Khartoum) 中的下一个单词并做同样的事情。
所以在这种情况下,我希望看到:迪拜 = 2,喀土穆 = 2,雅加达 = 1。
到目前为止我有这个,但我不知道如何概括它并使其成为一个循环:
numberDUBAI <- nrow(dplyr::filter(x, grepl(' DUBAI ', location)))
然后我对每个单词重复一遍
numberLOCATIONS <- c(numberDUBAI, numberKHARTOUM, numberJAKARTA, numberPARIS)
但这感觉效率很低,帮助? :D
【问题讨论】:
-
使用 table() 函数。它为您提供每个单词的频率。
标签: r string loops counting grepl