【发布时间】:2016-08-01 17:13:54
【问题描述】:
我正在关注https://rstudio-pubs-static.s3.amazonaws.com/31867_8236987cf0a8444e962ccd2aec46d9c3.html下面列出的代码
library(cluster)
d <- dist(t(dtmss), method="euclidian")
fit <- hclust(d=d, method="ward")
fit
plot.new()
plot(fit, hang=-1)
groups <- cutree(fit, k=5)
rect.hclust(fit, k=5, border="red")
如何打印每个集群中的单词?树状图变得非常狭窄,完全不可读。
谢谢!
编辑:
对于输入,请考虑任何具有名为“评论”列的 csv 文件。每个观察(50 行)都有文本 cmets。
然后我使用了上面链接中的代码:
library(tm)
input = read.csv("FILEPATH/InputFile.csv")
summary(input)
comments <- Corpus(VectorSource(input$Comment))
data <- tm_map(comments, removePunctuation)
data <- tm_map(data, removeNumbers)
data <- tm_map(data, tolower)
data <- tm_map(data, removeWords, stopwords("english"))
data <- tm_map(data, PlainTextDocument)
dtm <- DocumentTermMatrix(data)
freq <- colSums(as.matrix(dtm))
ord <- order(freq)
findFreqTerms(dtm, lowfreq = 10)
freq <- sort(colSums(as.matrix(dtm)), decreasing = TRUE)
head(freq, 30)
dtms <- removeSparseTerms(dtm, 0.1)
inspect(dtms)
library(cluster)
d <- dist(t(dtms), method="euclidian")
fit <- hclust(d=d, method="ward")
fit
plot(fit, hang=-1)
plot.new()
plot(fit, hang=-1)
groups <- cutree(fit, k=5)
rect.hclust(fit, k=5, border="red")
我希望这是足够的信息。
再次感谢。
【问题讨论】:
-
您在此处介绍的示例不可重现。我认为您需要在教程中的问题中包含更多代码和数据才能满足 MCVE 要求。 stackoverflow.com/help/mcve
-
我尝试用 iris 数据集重现它...
-
@stata00 这个编辑很有帮助。我认为它只是缺少实际的输入文件。您可以包含该教程中的 .csv 链接吗?
-
感谢您回来。我在我的电脑上创建了一个随机的 csv 文件。你想让我在网上找到一些例子并发布链接吗?对于给您带来的任何不便,我深表歉意。
-
ibm.com/developerworks/library/ba-spss-survey-text-mining1/… 有示例数据。请将代码中的列名从“$Comment”更改为示例数据中 cmets 列的名称,这样应该可以。我希望现在可以更轻松地运行代码。