【发布时间】:2020-10-28 10:04:24
【问题描述】:
对于我正在进行的研究项目,我已将 pdf 文档读入 R,创建了语料库和 TermDocumentMatrix。我想检查我的语料库中每个文档中特定单词的频率。 下面的代码为我提供了我想要的矩阵类型,以及文档中单词的频率,但显然它只处理高频术语而不是特定术语。
ft <- findFreqTerms(tdm, lowfreq = 100, highfreq = Inf)
as.matrix(opinions.tdm[ft,])
我在另一条评论中找到了下面的代码,它允许搜索特定术语的频率,但是,它在文档中求和。如何调整它以便我在每个文档中而不是跨文档中搜索特定术语?
library(tm)
data("crude")
crude <- as.VCorpus(crude)
crude <- tm_map(crude, stripWhitespace)
crude <- tm_map(crude, removePunctuation)
crude <- tm_map(crude, content_transformer(tolower))
crude <- tm_map(crude, removeWords, stopwords("english"))
tdm <- TermDocumentMatrix(crude)
# turn tdm into dense matrix and create frequency vector.
freq <- rowSums(as.matrix(tdm))
freq["crude"]
crude
21
freq["oil"]
oil
85
【问题讨论】:
标签: r tm corpus word-frequency term-document-matrix