【发布时间】:2017-02-08 02:34:29
【问题描述】:
我在 R 中使用 csv 文件制作了 wordcloud。我在 tm 包中使用了 TermDocumentMatrix 方法。这是我的代码:
csvData <- read.csv("word", encoding = "UTF-8", stringsAsFactors = FALSE)
Encoding(csvData$content) <- "UTF-8"
# useSejongDic() - KoNLP package
nouns <- sapply(csvData$content, extractNoun, USE.NAMES = F)
#create Corpus
myCorpus <- Corpus(VectorSource(nouns))
myCorpus <- tm_map(myCorpus, removePunctuation)
# remove numbers
myCorpus <- tm_map(myCorpus, removeNumbers)
#remove StopWord
myCorpus <- tm_map(myCorpus, removeWords, myStopwords)
#create Matrix
TDM <- TermDocumentMatrix(myCorpus, control = list(wordLengths=c(2,5)))
m <- as.matrix(TDM)
这个过程似乎花费了太多时间。我认为extractNoun 是花费太多时间的原因。为了使代码更省时,我想将生成的 TDM 保存为文件。当我阅读这个保存的文件时,我可以完全使用m <- as.matrix(saved TDM file)吗?或者,有没有更好的选择?
【问题讨论】:
标签: r nlp term-document-matrix