【问题标题】:R Cluster AnalysisR聚类分析
【发布时间】:2016-08-01 17:13:54
【问题描述】:

我正在关注https://rstudio-pubs-static.s3.amazonaws.com/31867_8236987cf0a8444e962ccd2aec46d9c3.html下面列出的代码

library(cluster)   
d <- dist(t(dtmss), method="euclidian")   
fit <- hclust(d=d, method="ward")   
fit

plot.new()
plot(fit, hang=-1)
groups <- cutree(fit, k=5) 
rect.hclust(fit, k=5, border="red")

如何打印每个集群中的单词?树状图变得非常狭窄,完全不可读。

谢谢!

编辑:

对于输入,请考虑任何具有名为“评论”列的 csv 文件。每个观察(50 行)都有文本 cmets。

然后我使用了上面链接中的代码:

library(tm)

input = read.csv("FILEPATH/InputFile.csv")
summary(input)

comments <- Corpus(VectorSource(input$Comment))

data <- tm_map(comments, removePunctuation)
data <- tm_map(data, removeNumbers)
data <- tm_map(data, tolower)
data <- tm_map(data, removeWords, stopwords("english"))
data <- tm_map(data, PlainTextDocument)

dtm <- DocumentTermMatrix(data)
freq <- colSums(as.matrix(dtm))
ord <- order(freq)
findFreqTerms(dtm, lowfreq = 10)
freq <- sort(colSums(as.matrix(dtm)), decreasing = TRUE)
head(freq, 30)

dtms <- removeSparseTerms(dtm, 0.1) 
inspect(dtms)

library(cluster)   
d <- dist(t(dtms), method="euclidian")   
fit <- hclust(d=d, method="ward")   
fit   
plot(fit, hang=-1)   

plot.new()
plot(fit, hang=-1)
groups <- cutree(fit, k=5)  
rect.hclust(fit, k=5, border="red")

我希望这是足够的信息。

再次感谢。

【问题讨论】:

  • 您在此处介绍的示例不可重现。我认为您需要在教程中的问题中包含更多代码和数据才能满足 MCVE 要求。 stackoverflow.com/help/mcve
  • 我尝试用 iris 数据集重现它...
  • @stata00 这个编辑很有帮助。我认为它只是缺少实际的输入文件。您可以包含该教程中的 .csv 链接吗?
  • 感谢您回来。我在我的电脑上创建了一个随机的 csv 文件。你想让我在网上找到一些例子并发布链接吗?对于给您带来的任何不便,我深表歉意。
  • ibm.com/developerworks/library/ba-spss-survey-text-mining1/… 有示例数据。请将代码中的列名从“$Comment”更改为示例数据中 cmets 列的名称,这样应该可以。我希望现在可以更轻松地运行代码。

标签: r hierarchical-clustering


【解决方案1】:

您可以从组中获取观察所在的集群,然后根据它们对数据进行子集化:

t(dtms)[groups==1] 

应该打印出集群 1 的成员。

【讨论】:

  • 我试过了。我收到错误“x$nrow 中的错误:$ 运算符对原子向量无效”。
  • dtmss 的结构是什么? dtmss$nrow 将尝试访问数据集中名为 nrow 的变量(列)。也许你想要 dtmss[1:nrow,] 之类的东西?
  • 对我的帖子进行了编辑。我已经包含了完整示例的代码。谢谢!
猜你喜欢
  • 2015-01-03
  • 1970-01-01
  • 2016-06-29
  • 2019-01-27
  • 2013-02-28
  • 2018-10-22
  • 1970-01-01
相关资源
最近更新 更多