在 RapidMiner 中分析集群同质性并使用集群距离性能算子答案

【问题标题】：Analyzing cluster homogeneity and using Cluster Distance Performance Operator in RapidMiner在 RapidMiner 中分析集群同质性并使用集群距离性能算子
【发布时间】：2016-11-30 23:38:17
【问题描述】：

我已经在数据集上实现了 k-means 聚类。我尝试通过查看 rapid-miner 中给出的平行图和偏差图来分析 k 的聚类。

目的是分析聚类的同质性。在给出的各种性能模型中，算子“Cluster Distance Performance”算子用于k-means聚类的结果。

是否有其他运营商可以提供此类分析？
我拥有的数据集包含具有较大值的数字向量（在成百上千），我也有一个数据集小值（小数点后 5-8 位）。

我不确定如何解释从运算符“集群距离性能”得到的结果，如下所示

质心表结果

而性能向量算子的结果是

有人可以帮我吗？虽然我读到 Davies Bouldin 的值越小，聚类效果越好。

【问题讨论】：

标签： cluster-analysis k-means rapidminer

【解决方案1】：

如果您试图找到“最佳”聚类，那么您必须改变 k 并计算不同的聚类有效性度量，以比较它们如何随着 k 的变化而变化。 Davies-Bouldin 通常是一个不错的选择，因为“最好”是由最小值表示的。最佳的定义是从用于构建有效性度量的数学技术（基于合理和逻辑技术）的角度来看的，但是人们总是必须查看聚类来确定结果是否真的有意义。

【讨论】：

如果您需要有关编写过程以迭代所有可能的 k 值并计算有效性度量的指导，您可以在此处查看示例 rapidminernotes.blogspot.co.uk/2011/03/…