【问题标题】:What's weka's kmeans output (WCSS) mean?weka 的 kmeans 输出 (WCSS) 是什么意思?
【发布时间】:2013-10-22 00:39:21
【问题描述】:

我正在使用 weka 进行 K-means 聚类,当我尝试了一个小集合并发现 群内误差平方和 (WCSS) 值不是我想的那样。

我认为 WCSS 是所有元素到它的集群中心的平方距离之和, 但值不对:

例如: 数据集是:

3.0, 2.0, 3.0, 0.0, 0.0, 2.0, 1.0, 0.0, 1.0
4.0, 1.0, 3.0, 0.0, 1.0, 0.0, 1.0, 4.0, 1.0
4.0, 1.0, 7.0, 0.0, 1.0, 1.0, 0.0, 1.0, 1.0
3.0, 2.0, 7.0, 0.0, 0.0, 2.0, 1.0, 1.0, 0.0
3.0, 2.0, 6.0, 1.0, 0.0, 1.0, 0.0, 2.0, 1.0
4.0, 2.0, 5.0, 1.0, 1.0, 1.0, 1.0, 0.0, 0.0
4.0, 1.0, 8.0, 0.0, 1.0, 2.0, 0.0, 0.0, 1.0
3.0, 2.0, 2.0, 0.0, 1.0, 1.0, 0.0, 0.0, 1.0
3.0, 2.0, 0.0, 0.0, 1.0, 1.0, 1.0, 3.0, 1.0

集群(只有一个)中心是3, 2, 3, 0, 1, 1, 1, 0, 1

weka 输出的 WCSS 是 39,但根据我的理解,应该是133。 我知道我对 WCSS 的含义一定是错的,有人可以告诉我吗?

【问题讨论】:

    标签: cluster-analysis weka k-means


    【解决方案1】:

    我相信报告的是属性值标准化后的 WCSS。不幸的是,我无法复制您的结果。

    但是,将您的数据集与 SimpleKMeans (k=1) 结合使用,我得到了以下结果:

    • 在规范化属性值之前,WCSS 是 26.4375
    • 规范化属性值后,WCSS 为 26.4375

    这个source也表示Weka的K-means算法自动归一化属性值。

    【讨论】:

    • 我将集群的数量设置为1,但我意识到我将他的集群中心添加为数据点!我现在正在更新 WCSS 值,但仍然不是他的结果。
    • 正常化似乎是这样:weka.8497.n7.nabble.com/questions-about-clustering-td3805.html 可惜我们不能得到相同的数字
    • 我们的结果不同,因为我将这些数据(全部)视为名义数据,
    • 在这种情况下,名义属性被转换为二进制。我不相信您应该期望结果与您的数值计算相同。如果您以 .arff 格式提供数据示例,我们可以尝试确认这一点(在不知道您的名义数据水平的情况下,这将是一项艰巨的任务)!
    • 谢谢,这是我的 .arff 文件:
    【解决方案2】:

    @关系癌症

    @attribute a1{1,2,3,4,5,6}

    @attribute a2{0,1,2}

    @attribute a3{0,1,2,3,4,5,6,7,8,9,10}

    @attribute a4{0,1,2,3,4,5,8}

    @attribute a5{0,1}

    @attribute a6{0,1,2}

    @attribute a7{0,1}

    @attribute a8{0,1,2,3,4}

    @attribute a9{0,1}

    @attribute 标签{0,1}

    @数据

    3,2,3,0,0,2,1,0,1,1

    4,1,3,0,1,0,1,4,1,0

    4,1,7,0,1,1,0,1,1,1

    3,2,7,0,0,2,1,1,0,0

    3,2,6,1,0,1,0,2,1,1

    4,2,5,1,1,1,1,0,0,0

    4,1,8,0,1,2,0,0,1,0

    3,2,2,0,1,1,0,0,1,0

    3,2,0,0,1,1,1,3,1,0

    【讨论】:

    • K-means 真正适用于 continuous 值,而不适用于分类数据(即使您对类别进行二进制编码或给它们数字标签)。因为均值不再有意义
    猜你喜欢
    • 1970-01-01
    • 2013-07-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-08-30
    • 1970-01-01
    • 2017-04-15
    • 2018-07-17
    相关资源
    最近更新 更多