【发布时间】:2016-08-20 07:37:52
【问题描述】:
我已经实现了一个用于汇总日志文件的聚类算法,目前我正在使用调整后的兰德指数和调整后的互信息指数对真实数据进行测试。
我的算法的输入是一个日志条目列表,输出是一个整数列表(每个项目所属的集群标签)。基本事实类似地是一个整数列表,其中每个整数代表该项目所属的真实集群。对于我的大多数测试用例,我收到了正常/预期的结果,但是一个文件给了我意外的输出。我已经附上了两个列表,即真实聚类以及我的算法的聚类:
基本事实列表: http://pastebin.com/9Y5TE6b7
自己的聚类: http://pastebin.com/hJz1M4sf
这两个列表被输入 scikit-learn 函数以获取 ARI 和 AMI。 ARI 分数看起来大致正确,但 AMI 高于 1,如果我理解正确,根据 AMI 的文档和定义,这应该是不可能的。这个数据集高度不平衡,但我的许多其他文件也同样平衡。我无法弄清楚这一点。作为参考,我获得的 ARI 和 AMI 分数是:
ARI:0.99642743999922712
AMI:1.0190170466324
【问题讨论】:
-
我在github.com/scikit-learn/scikit-learn/issues/6718 报告了一个错误。感谢收看这个!
标签: python-2.7 machine-learning scikit-learn cluster-analysis