R聚类分析答案

【问题标题】：R Cluster AnalysisR聚类分析
【发布时间】：2016-08-01 17:13:54
【问题描述】：

我正在关注https://rstudio-pubs-static.s3.amazonaws.com/31867_8236987cf0a8444e962ccd2aec46d9c3.html下面列出的代码

library(cluster)   
d <- dist(t(dtmss), method="euclidian")   
fit <- hclust(d=d, method="ward")   
fit

plot.new()
plot(fit, hang=-1)
groups <- cutree(fit, k=5) 
rect.hclust(fit, k=5, border="red")

如何打印每个集群中的单词？树状图变得非常狭窄，完全不可读。

谢谢！

编辑：

对于输入，请考虑任何具有名为“评论”列的 csv 文件。每个观察（50 行）都有文本 cmets。

然后我使用了上面链接中的代码：

library(tm)

input = read.csv("FILEPATH/InputFile.csv")
summary(input)

comments <- Corpus(VectorSource(input$Comment))

data <- tm_map(comments, removePunctuation)
data <- tm_map(data, removeNumbers)
data <- tm_map(data, tolower)
data <- tm_map(data, removeWords, stopwords("english"))
data <- tm_map(data, PlainTextDocument)

dtm <- DocumentTermMatrix(data)
freq <- colSums(as.matrix(dtm))
ord <- order(freq)
findFreqTerms(dtm, lowfreq = 10)
freq <- sort(colSums(as.matrix(dtm)), decreasing = TRUE)
head(freq, 30)

dtms <- removeSparseTerms(dtm, 0.1) 
inspect(dtms)

library(cluster)   
d <- dist(t(dtms), method="euclidian")   
fit <- hclust(d=d, method="ward")   
fit   
plot(fit, hang=-1)   

plot.new()
plot(fit, hang=-1)
groups <- cutree(fit, k=5)  
rect.hclust(fit, k=5, border="red")

我希望这是足够的信息。

再次感谢。

【问题讨论】：

您在此处介绍的示例不可重现。我认为您需要在教程中的问题中包含更多代码和数据才能满足 MCVE 要求。 stackoverflow.com/help/mcve
我尝试用 iris 数据集重现它...
@stata00 这个编辑很有帮助。我认为它只是缺少实际的输入文件。您可以包含该教程中的 .csv 链接吗？
感谢您回来。我在我的电脑上创建了一个随机的 csv 文件。你想让我在网上找到一些例子并发布链接吗？对于给您带来的任何不便，我深表歉意。
ibm.com/developerworks/library/ba-spss-survey-text-mining1/… 有示例数据。请将代码中的列名从“$Comment”更改为示例数据中 cmets 列的名称，这样应该可以。我希望现在可以更轻松地运行代码。

标签： r hierarchical-clustering

【解决方案1】：

您可以从组中获取观察所在的集群，然后根据它们对数据进行子集化：

t(dtms)[groups==1]

应该打印出集群 1 的成员。

【讨论】：

我试过了。我收到错误“x$nrow 中的错误：$ 运算符对原子向量无效”。
dtmss 的结构是什么？ dtmss$nrow 将尝试访问数据集中名为 nrow 的变量（列）。也许你想要 dtmss[1:nrow,] 之类的东西？
对我的帖子进行了编辑。我已经包含了完整示例的代码。谢谢！