【问题标题】:weka clustering with SimpleKMeans confusinig outputweka 聚类与 SimpleKMeans 混淆输出
【发布时间】:2014-04-02 09:31:39
【问题描述】:

我尝试在 weka 中运行并理解 SimpleKMeans 算法的结果。

这是我的训练数据

@relation weather_clustered

@attribute Instance_number numeric
@attribute outlook {sunny,overcast,rainy}
@attribute temperature numeric
@attribute humidity numeric
@attribute windy {TRUE,FALSE}
@attribute play {yes,no}
@attribute cluster {cluster0,cluster1,cluster2,cluster3,cluster4,cluster5}

@data
0,sunny,85,85,FALSE,no,cluster3
1,sunny,80,90,TRUE,no,cluster5
2,overcast,83,86,FALSE,yes,cluster2
4,rainy,68,80,FALSE,yes,cluster4

然后我使用 numClusters=2 seed=10 运行 SimpleKMeans。我确实想查看关于属性 cluster 的聚类结果,换句话说,我想查看 clusterx 与哪个聚类属性相关。如您所见,我不认为属性集群是正确的集群。

为了在输出中看到对应关系,我设置了 要进行聚类评估的类 = (Nom) 聚类

得到以下结果

类属性:集群 类到集群:

0 1  <-- assigned to cluster
 0 0 | cluster0
 0 0 | cluster1
 1 0 | cluster2
 0 1 | cluster3
 1 0 | cluster4
 0 1 | cluster5

Cluster 0 <-- cluster2
Cluster 1 <-- cluster3

Incorrectly clustered instances :   2.0  50      %

我确实喜欢有对应关系的列表,这正是我需要的,但是我不明白以下是什么意思

Cluster 0 <-- cluster2
Cluster 1 <-- cluster3

另外,我被下面的结果弄糊涂了

Incorrectly clustered instances :   2.0  50      %

从哪里来,weka怎么知道正确的结果,我没有正确的结果,可能是把属性簇和正确的簇混淆了。总之我不明白输出。

【问题讨论】:

    标签: machine-learning data-mining weka k-means


    【解决方案1】:

    SimpleKMeans 是一种聚类算法,可将您的数据分组到 K 个聚类中。

    在您的情况下,拥有numClusters=2 => K=2 会将您的数据分为 2 个集群。

    集群 1

    集群 2

    当您选择类进行集群评估时,Weka 会执行以下操作:

    1. 删除您选择用于评估的属性值。在您的情况下是 cluster 类数据。

    2. 应用 KMeans 算法而不使用 cluster 属性中的任何信息。

    3. 使用您的初始数据集(带有您的集群属性)评估您的集群

    所以,在你的情况下,

    cluster1, cluster2.., cluster5,

    充当您的实例的标签并将用于测试您的模型。

    为了更好地理解输出,你有

    @data
    0,sunny,85,85,FALSE,no,cluster3
    1,sunny,80,90,TRUE,no,cluster5
    2,overcast,83,86,FALSE,yes,cluster2
    4,rainy,68,80,FALSE,yes,cluster4
    

    Cluster 0 <-- cluster2
    Cluster 1 <-- cluster3
    
    
    Incorrectly clustered instances :   2.0  50      %
    

    如您所见,有 2 个错误集群的实例:

    1,sunny,80,90,TRUE,no,cluster5
    4,rainy,68,80,FALSE,yes,cluster4
    

    并且有 50% 的实例错误聚类,因为您总共有 4 个实例,其中 2 个错误聚类(2 = 4 个的 50%)

    【讨论】:

      猜你喜欢
      • 2014-07-09
      • 1970-01-01
      • 2015-07-22
      • 1970-01-01
      • 1970-01-01
      • 2017-09-24
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多