如何使用 kmeans 聚类解释更高百分比的点变异性？ [关闭]答案

【问题标题】：How to explain a higher percentage of point variability using kmeans clustering? [closed]如何使用 kmeans 聚类解释更高百分比的点变异性？ [关闭]
【发布时间】：2015-08-30 03:50:03
【问题描述】：

我正在做一些 kmeans 聚类：

无论我选择使用多少个聚类，点变异的百分比都不会改变：

这是我绘制数据的方式：

# Prepare Data
mydata <- read.csv("~/student-mat.csv", sep=";")

# Let's only grab the numeric columns
mydata <- mydata[,c("age","Medu","Fedu","traveltime","studytime","failures","fam

mydata <- na.omit(mydata) # listwise deletion of missing
mydata <- scale(mydata) # standardize variables ibrary(ggplot2)

# K-Means Clustering with 5 clusters
fit <- kmeans(mydata, 5) #to change number of clusters, I change the "5"

# Cluster Plot against 1st 2 principal components

# vary parameters for most readable graph
library(cluster)
clusplot(mydata, fit$cluster, color=TRUE, shade=TRUE,
   labels=0, lines=0)

我们如何影响点变异的百分比？

【问题讨论】：

标签： r statistics cluster-analysis k-means

【解决方案1】：

解释的方差量与计算出的用于可视化数据的两个主成分有关。这与聚类算法的类型或您正在使用的算法的准确性（在本例中为 kmeans）无关。

要了解您的聚类算法至少有多准确，您可以使用table() 来构建一个交叉分类表，其中包含您观察到的数据，通常是您在聚类过程中保留的一些数据。然后使用该交叉制表/混淆矩阵，您可以计算用户/生产者的准确性等指标。当然还有更复杂的方法，但希望这可以让您开始考虑评估分类准确性的最佳方法。

【讨论】：

【解决方案2】：

k-means 不是“解释”方差。

数字指的是clusplot 自动为您完成的可视化。所以你被太多的自动化误导了。

从情节来看，我会说数据没有用 k-means 聚类。

【讨论】：