【发布时间】:2015-11-06 19:21:56
【问题描述】:
有没有办法获得文本的累积字数?我有一个要分析的文本,我想找到文本中总单词的累积计数以及文本中某些单词的累积计数。
目前我有 3 个单独的数据框。第一个包含文本文档中的所有单词,一个“计数”列,其中包含一直向下的 1,以及一个“总计”列,它给出了“计数”列的累积总和。其他两个数据框完全相同,只是它们只包含我在文本中查找的特定单词的所有出现。
我们的目标是制作一个图,显示整个文本中两个特定单词的使用关系。
感谢任何帮助。以下是我目前所拥有的。
URL <- 'http://shakespeare.mit.edu/romeo_juliet/full.html'
romeo <- htmlParse(URL)
txPath <- "//blockquote//a"
txValue <- xpathApply(romeo, txPath, xmlValue)
txValue <- strsplit(gsub('\\n','',txValue), split=" ")
words <- unlist(str_extract_all(txValue,'(\\w+)\'*(\\w+)'))
vWord <- tolower(words)
rCount <- unlist(str_extract_all(vWord,'(romeo)'))
lCount <- unlist(str_extract_all(vWord,'(love)'))
rDF <- as.data.frame(rCount) %>%
mutate(count=1) %>%
mutate(tot=cumsum(count))
lDF <- as.data.frame(lCount) %>%
mutate(count=1) %>%
mutate(tot=cumsum(count))
wordsDF <- as.data.frame(vWord) %>%
mutate(count=1) %>%
mutate(tot=cumsum(count))
【问题讨论】:
-
你能告诉我们你到目前为止所做的尝试吗?
-
当然,我编辑了帖子以包含我的代码。