【发布时间】:2018-07-01 07:47:04
【问题描述】:
我正在寻找一种方法来按文档比较单词直方图,该文档属于具有多个文档网络的文件夹语料库。我确实尝试过:
freq <- sort(colSums(as.matrix(dtm), group=Docs), decreasing=TRUE)
也确实尝试过 ggplot 选项:
p <- p + geom_bar(stat="identity") + facet_wrap(~ Docs)
但可悲的是我得到了错误。
下面是我的代码的修改示例,但可悲的是,我的 3 个文档的情节像一个,也没有被 Docs 分段:
c= c("hola como hola como hola como", "hola me fui hola me fui hola me fui hola me fui", "hola como estas hola como estas hola como estas" )
corpus= VCorpus(VectorSource(c))
dtm <- DocumentTermMatrix(corpus)
m <- as.matrix(dtm)
m
freq <- sort(colSums(as.matrix(dtm)), decreasing=TRUE)
wf <- data.frame(word=names(freq), freq=freq)
p <- ggplot(subset(wf, freq>1), aes(word, freq))
p <- p + geom_bar(stat="identity")
p <- p + theme(axis.text.x=element_text(angle=45, hjust=1))
p
【问题讨论】:
标签: r text text-mining corpus