【问题标题】:Computing F-measure for clustering计算聚类的 F-measure
【发布时间】:2012-09-25 08:54:09
【问题描述】:

谁能帮我集体计算F-measure?我知道如何计算召回率和准确率,但不知道给定算法如何计算一个 F 度量值。

例如,假设我的算法创建了 m 个集群,但我知道相同数据有 n 个集群(由另一个基准算法创建)。

我找到了一个 pdf,但它没有用,因为我得到的总价值大于 1。pdf 的参考是 F Measure explained。具体来说,我已经阅读了一些研究论文,其中作者在 F-measure 的基础上比较了两种算法,它们共同得到了 0 和 1 之间的值。 如果你仔细阅读上面提到的pdf,公式是F(C,K) = ∑ |词 | / N * 最大 {F(ci,kj)}
其中 ci 是参考集群 & kj 是由其他算法创建的集群,这里 i 从 1 运行到 n & j 从 1 运行到 m。假设 |c1|=218 这里根据 pdf N=m*n 假设 m =12 和 n=10,我们得到了 j=2 的最大 F(c1,kj)。 F(c1,k2) 肯定在 0 和 1 之间。但是通过上面的公式计算得到的结果值我们会得到大于 1 的值。

【问题讨论】:

  • 你能发布你的召回率和准确率吗? IINM 如果它们介于 0 和 1 之间,则它们的平均值(请参阅您的参考文献)应
  • 是的,请详细说明如何获得准确率和召回率。它们必须是 0 到 1 才有意义。否则F1也会出界。你可能有重叠集群吗?然后就不行了;而且我不知道一个允许评估重叠集群的好的扩展。

标签: cluster-analysis data-mining precision-recall


【解决方案1】:

术语 f-measure 本身未指定。它是谐波平均值,通常是精确度和召回率。实际上,如果您指的是未加权版本,您甚至应该说 F1-score,因为您可以对两个输入值赋予不同的权重。但不说哪两个值是平均的(不是算术平均值!),这并没有说明什么。

https://en.wikipedia.org/wiki/F1_score

请注意,值必须在 0-1 值范围内。否则,你之前有一个错误。

在聚类分析中,常用的方法是将 F1-Measure 应用于 pairs 的准确率和召回率,通常称为“pair counting f-measure”。但您也可以计算其他值的相同平均值。

对计数有一个很好的特性,它不直接比较簇,所以当一个结果有 m 个簇,另一个有 n 个簇时,结果定义明确。但是,对计数需要严格的分区。当元素没有被聚类或分配给多个聚类时,对数度量很容易超出 0-1 的范围。

讨论其中的一些指标(包括兰德指数等)并简单解释“对数 F 度量”。

【讨论】:

  • 不管这篇文章的兴趣如何,我认为这个问题的答案至少应该使所说的特别的意思明确
  • 我懒得通过维基百科验证它是调和平均值,而不是几何平均值。我倾向于把事情搞混。
  • @Anony-Mousse 非常感谢上述帖子的作者。这对我很有用。非常感谢
【解决方案2】:

Darius Pfitzner、Richard Leibbrandt 和 David Powers 的论文 Characterization and evaluation of similarity measures for pairs of clusterings 包含很多关于这个主题的有用信息,包括以下示例:

给定集合,

D = {1, 2, 3, 4, 5, 6}

和分区,

P = {1, 2, 3}, {4, 5}, {6} 和 Q = {1, 2, 4}, {3, 5, 6}

其中 P 是由我们的算法创建的集合,Q 是由我们已知的标准算法创建的集合

对P = {(1, 2), (1, 3), (2, 3), (4, 5)}, PairsQ = {(1, 2), (1, 4), (2, 4), (3, 5), (3, 6), (5, 6)},和 对 D = {(1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 3), (2, 4), (2, 5), (2, 6), (3, 4), (3, 5), (3, 6), (4, 5), (4, 6), (5, 6)}

所以,

一个 = | PairsP 相交 PairsQ | = |(1, 2)| = 1 乙 = | PairsP- PairsQ | = |(1, 3)(2, 3)(4, 5)| = 3 c = | PairsQ- 对P | = |(1, 4)(2, 4)(3, 5)(3, 6)(5, 6)| = 5 F-测量= 2a/(2a+b+c)

注意:在第 364 页的发布中有一个错误,其中计算了 a、b、c 和 d,而 b 和 c 的结果实际上切换不正确。这种转变会抛弃一些其他措施的结果。显然,F-measure 不受影响。

【讨论】:

    【解决方案3】:

    公式中的 N,F(C,K) = ∑ |词 | /N * max {F(ci,kj)},是|ci|的总和总之,即它是元素的总数。您可能将其误认为是集群的数量,因此得到的答案大于 1。如果您进行更改,您的答案将介于 1 和 0 之间。

    【讨论】:

      猜你喜欢
      • 2013-09-01
      • 1970-01-01
      • 1970-01-01
      • 2014-02-16
      • 2013-11-13
      • 2012-04-11
      • 2012-12-13
      • 2019-07-21
      相关资源
      最近更新 更多