【发布时间】:2012-09-25 08:54:09
【问题描述】:
谁能帮我集体计算F-measure?我知道如何计算召回率和准确率,但不知道给定算法如何计算一个 F 度量值。
例如,假设我的算法创建了 m 个集群,但我知道相同数据有 n 个集群(由另一个基准算法创建)。
我找到了一个 pdf,但它没有用,因为我得到的总价值大于 1。pdf 的参考是 F Measure explained。具体来说,我已经阅读了一些研究论文,其中作者在 F-measure 的基础上比较了两种算法,它们共同得到了 0 和 1 之间的值。
如果你仔细阅读上面提到的pdf,公式是F(C,K) = ∑ |词 | / N * 最大 {F(ci,kj)}
其中 ci 是参考集群 & kj 是由其他算法创建的集群,这里 i 从 1 运行到 n & j 从 1 运行到 m。假设 |c1|=218 这里根据 pdf N=m*n 假设 m =12 和 n=10,我们得到了 j=2 的最大 F(c1,kj)。 F(c1,k2) 肯定在 0 和 1 之间。但是通过上面的公式计算得到的结果值我们会得到大于 1 的值。
【问题讨论】:
-
你能发布你的召回率和准确率吗? IINM 如果它们介于 0 和 1 之间,则它们的平均值(请参阅您的参考文献)应
-
是的,请详细说明如何获得准确率和召回率。它们必须是 0 到 1 才有意义。否则F1也会出界。你可能有重叠集群吗?然后就不行了;而且我不知道一个允许评估重叠集群的好的扩展。
标签: cluster-analysis data-mining precision-recall