【发布时间】:2018-10-14 15:53:17
【问题描述】:
提前感谢您的帮助。 我有一个 CSV 文件,其中每一行都是一个受访者(n = 612),我想比较由两列之间的句子中的响应组成的文本,一个使用比较词云描述好的体验与不好的体验.
##First I merged my response columns
mydata2= mydata%>%
gather(response, text, Good, Bad)
mydata2$text <- sapply(mydata2$text,function(row) iconv(row, "latin1","ASCII", sub=""))
mydata2<-data.frame(mydata2)
## Calculate Corpus
docs<-Corpus(VectorSource(mydata2$text)) %>%
tm_map(removePunctuation) %>%
tm_map(removeNumbers) %>%
tm_map(tolower) %>%
tm_map(removeWords, stopwords("english")) %>%
tm_map(stripWhitespace) %>%
tm_map(PlainTextDocument)
inspect(docs)
tdm <- TermDocumentMatrix(docs)
但是这不会让我生成一个 tdm。 这是比较列中文本变量的最佳方法,还是我应该生成两个不同的语料库(一个好一个坏)并以这种方式比较它们?
谢谢
【问题讨论】:
标签: r corpus word-cloud quanteda