【发布时间】:2014-11-13 20:23:33
【问题描述】:
我有两个字符串:
a <- "Roy lives in Japan and travels to Africa"
b <- "Roy travels Africa with this wife"
我希望计算这些字符串之间的常用词。
答案应该是 3。
“罗伊”
“旅行”
- “非洲”
常用词
这是我尝试过的:
stra <- as.data.frame(t(read.table(textConnection(a), sep = " ")))
strb <- as.data.frame(t(read.table(textConnection(b), sep = " ")))
取唯一以避免重复计数
stra_unique <-as.data.frame(unique(stra$V1))
strb_unique <- as.data.frame(unique(strb$V1))
colnames(stra_unique) <- c("V1")
colnames(strb_unique) <- c("V1")
common_words <-length(merge(stra_unique,strb_unique, by = "V1")$V1)
对于包含超过 2000 和 1200 个字符串的数据集,我需要这样做。 我必须评估字符串的总时间是 2000 X 1200。任何快速的方法,不使用循环。
【问题讨论】:
-
我并不是真的推荐这个,但是使用你的“stra”和“strb”,你可能就可以做到
merge(stra, strb)...
标签: r string text-mining data-analysis