【问题标题】:How to explain a higher percentage of point variability using kmeans clustering? [closed]如何使用 kmeans 聚类解释更高百分比的点变异性? [关闭]
【发布时间】:2015-08-30 03:50:03
【问题描述】:

我正在做一些 kmeans 聚类:

无论我选择使用多少个聚类,点变异的百分比都不会改变:

这是我绘制数据的方式:

# Prepare Data
mydata <- read.csv("~/student-mat.csv", sep=";")

# Let's only grab the numeric columns
mydata <- mydata[,c("age","Medu","Fedu","traveltime","studytime","failures","fam

mydata <- na.omit(mydata) # listwise deletion of missing
mydata <- scale(mydata) # standardize variables ibrary(ggplot2)

# K-Means Clustering with 5 clusters
fit <- kmeans(mydata, 5) #to change number of clusters, I change the "5"

# Cluster Plot against 1st 2 principal components

# vary parameters for most readable graph
library(cluster)
clusplot(mydata, fit$cluster, color=TRUE, shade=TRUE,
   labels=0, lines=0)

我们如何影响点变异的百分比?

【问题讨论】:

    标签: r statistics cluster-analysis k-means


    【解决方案1】:

    解释的方差量与计算出的用于可视化数据的两个主成分有关。这与聚类算法的类型或您正在使用的算法的准确性(在本例中为 kmeans)无关。

    要了解您的聚类算法至少有多准确,您可以使用table() 来构建一个交叉分类表,其中包含您观察到的数据,通常是您在聚类过程中保留的一些数据。然后使用该交叉制表/混淆矩阵,您可以计算用户/生产者的准确性等指标。当然还有更复杂的方法,但希望这可以让您开始考虑评估分类准确性的最佳方法。

    【讨论】:

      【解决方案2】:

      k-means 不是“解释”方差。

      数字指的是clusplot 自动为您完成的可视化。所以你被太多的自动化误导了。

      从情节来看,我会说数据没有用 k-means 聚类。

      【讨论】:

        猜你喜欢
        • 2023-03-13
        • 2018-07-06
        • 2022-01-22
        • 2021-03-10
        • 2015-11-20
        • 1970-01-01
        • 2021-12-18
        • 2021-01-22
        • 2017-04-09
        相关资源
        最近更新 更多