【发布时间】:2011-11-28 14:30:16
【问题描述】:
我正在编写一段代码来评估我的聚类算法,我发现每种评估方法都需要来自m*n 矩阵的基本数据,例如A = {aij} 其中aij 是数据点的数量是类 ci 的成员和集群 kj 的元素。
但是在Introduction to Data Mining(Pang-Ning Tan et al.)中似乎有两种这种类型的矩阵,一种是混淆矩阵,另一种是列联表。我不完全理解两者之间的区别。哪个最能描述我想使用的矩阵?
【问题讨论】:
-
顺便说一句:我从不同的上下文中知道(在许多设置中,包括您在任何地方遇到的流行数据集)点的几何配置及其类并不相关好吧。我不确定这是否为您提供了衡量聚类质量的好工具,除非您当然做出/可以做出类和点位置相关性良好的假设。
-
我很确定根本没有区别。混淆矩阵只是您的预测和真实标签的列联表。
标签: matrix cluster-analysis data-mining difference