weka 聚类与 SimpleKMeans 混淆输出答案

【问题标题】：weka clustering with SimpleKMeans confusinig outputweka 聚类与 SimpleKMeans 混淆输出
【发布时间】：2014-04-02 09:31:39
【问题描述】：

我尝试在 weka 中运行并理解 SimpleKMeans 算法的结果。

这是我的训练数据

@relation weather_clustered

@attribute Instance_number numeric
@attribute outlook {sunny,overcast,rainy}
@attribute temperature numeric
@attribute humidity numeric
@attribute windy {TRUE,FALSE}
@attribute play {yes,no}
@attribute cluster {cluster0,cluster1,cluster2,cluster3,cluster4,cluster5}

@data
0,sunny,85,85,FALSE,no,cluster3
1,sunny,80,90,TRUE,no,cluster5
2,overcast,83,86,FALSE,yes,cluster2
4,rainy,68,80,FALSE,yes,cluster4

然后我使用 numClusters=2 seed=10 运行 SimpleKMeans。我确实想查看关于属性 cluster 的聚类结果，换句话说，我想查看 clusterx 与哪个聚类属性相关。如您所见，我不认为属性集群是正确的集群。

为了在输出中看到对应关系，我设置了 要进行聚类评估的类 = (Nom) 聚类

得到以下结果

类属性：集群类到集群：

0 1  <-- assigned to cluster
 0 0 | cluster0
 0 0 | cluster1
 1 0 | cluster2
 0 1 | cluster3
 1 0 | cluster4
 0 1 | cluster5

Cluster 0 <-- cluster2
Cluster 1 <-- cluster3

Incorrectly clustered instances :   2.0  50      %

我确实喜欢有对应关系的列表，这正是我需要的，但是我不明白以下是什么意思

Cluster 0 <-- cluster2
Cluster 1 <-- cluster3

另外，我被下面的结果弄糊涂了

Incorrectly clustered instances :   2.0  50      %

从哪里来，weka怎么知道正确的结果，我没有正确的结果，可能是把属性簇和正确的簇混淆了。总之我不明白输出。

【问题讨论】：

标签： machine-learning data-mining weka k-means

【解决方案1】：

SimpleKMeans 是一种聚类算法，可将您的数据分组到 K 个聚类中。

在您的情况下，拥有numClusters=2 => K=2 会将您的数据分为 2 个集群。

集群 1

集群 2

当您选择类进行集群评估时，Weka 会执行以下操作：

删除您选择用于评估的属性值。在您的情况下是 cluster 类数据。
应用 KMeans 算法而不使用 cluster 属性中的任何信息。
使用您的初始数据集（带有您的集群属性）评估您的集群

所以，在你的情况下，

cluster1, cluster2.., cluster5,

充当您的实例的标签并将用于测试您的模型。

为了更好地理解输出，你有

@data
0,sunny,85,85,FALSE,no,cluster3
1,sunny,80,90,TRUE,no,cluster5
2,overcast,83,86,FALSE,yes,cluster2
4,rainy,68,80,FALSE,yes,cluster4

和

Cluster 0 <-- cluster2
Cluster 1 <-- cluster3


Incorrectly clustered instances :   2.0  50      %

如您所见，有 2 个错误集群的实例：

1,sunny,80,90,TRUE,no,cluster5
4,rainy,68,80,FALSE,yes,cluster4

并且有 50% 的实例错误聚类，因为您总共有 4 个实例，其中 2 个错误聚类（2 = 4 个的 50%）

【讨论】：