计算聚类的 F-measure答案

【问题标题】：Computing F-measure for clustering计算聚类的 F-measure
【发布时间】：2012-09-25 08:54:09
【问题描述】：

谁能帮我集体计算F-measure？我知道如何计算召回率和准确率，但不知道给定算法如何计算一个 F 度量值。

例如，假设我的算法创建了 m 个集群，但我知道相同数据有 n 个集群（由另一个基准算法创建）。

我找到了一个 pdf，但它没有用，因为我得到的总价值大于 1。pdf 的参考是 F Measure explained。具体来说，我已经阅读了一些研究论文，其中作者在 F-measure 的基础上比较了两种算法，它们共同得到了 0 和 1 之间的值。如果你仔细阅读上面提到的pdf，公式是F(C,K) = ∑ |词 | / N * 最大 {F(ci,kj)}
其中 ci 是参考集群 & kj 是由其他算法创建的集群，这里 i 从 1 运行到 n & j 从 1 运行到 m。假设 |c1|=218 这里根据 pdf N=m*n 假设 m =12 和 n=10，我们得到了 j=2 的最大 F(c1,kj)。 F(c1,k2) 肯定在 0 和 1 之间。但是通过上面的公式计算得到的结果值我们会得到大于 1 的值。

【问题讨论】：

你能发布你的召回率和准确率吗？ IINM 如果它们介于 0 和 1 之间，则它们的平均值（请参阅您的参考文献）应
是的，请详细说明如何获得准确率和召回率。它们必须是 0 到 1 才有意义。否则F1也会出界。你可能有重叠集群吗？然后就不行了；而且我不知道一个允许评估重叠集群的好的扩展。
我认为这意味着：nlp.stanford.edu/IR-book/html/htmledition/…

标签： cluster-analysis data-mining precision-recall

【解决方案1】：

术语 f-measure 本身未指定。它是谐波平均值，通常是精确度和召回率。实际上，如果您指的是未加权版本，您甚至应该说 F1-score，因为您可以对两个输入值赋予不同的权重。但不说哪两个值是平均的（不是算术平均值！），这并没有说明什么。

https://en.wikipedia.org/wiki/F1_score

请注意，值必须在 0-1 值范围内。否则，你之前有一个错误。

在聚类分析中，常用的方法是将 F1-Measure 应用于 pairs 的准确率和召回率，通常称为“pair counting f-measure”。但您也可以计算其他值的相同平均值。

对计数有一个很好的特性，它不直接比较簇，所以当一个结果有 m 个簇，另一个有 n 个簇时，结果定义明确。但是，对计数需要严格的分区。当元素没有被聚类或分配给多个聚类时，对数度量很容易超出 0-1 的范围。

E. Achtert，S. Goldhofer，H.-P。 Kriegel、E. Schubert、A. Zimek
聚类指标评估和视觉支持
诠释。会议。数据工程 (ICDE 2012)
http://www.computer.org/portal/web/csdl/doi/10.1109/ICDE.2012.128

讨论其中的一些指标（包括兰德指数等）并简单解释“对数 F 度量”。

【讨论】：

不管这篇文章的兴趣如何，我认为这个问题的答案至少应该使所说的特别的意思明确
我懒得通过维基百科验证它是调和平均值，而不是几何平均值。我倾向于把事情搞混。
@Anony-Mousse 非常感谢上述帖子的作者。这对我很有用。非常感谢

【解决方案2】：

Darius Pfitzner、Richard Leibbrandt 和 David Powers 的论文 Characterization and evaluation of similarity measures for pairs of clusterings 包含很多关于这个主题的有用信息，包括以下示例：

给定集合，

D = {1, 2, 3, 4, 5, 6}

和分区，

P = {1, 2, 3}, {4, 5}, {6} 和 Q = {1, 2, 4}, {3, 5, 6}

其中 P 是由我们的算法创建的集合，Q 是由我们已知的标准算法创建的集合

对P = {(1, 2), (1, 3), (2, 3), (4, 5)}, PairsQ = {(1, 2), (1, 4), (2, 4), (3, 5), (3, 6), (5, 6)}，和对 D = {(1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 3), (2, 4), (2, 5), (2, 6), (3, 4), (3, 5), (3, 6), (4, 5), (4, 6), (5, 6)}

所以，

一个 = | PairsP 相交 PairsQ | = |(1, 2)| = 1 乙 = | PairsP- PairsQ | = |(1, 3)(2, 3)(4, 5)| = 3 c = | PairsQ- 对P | = |(1, 4)(2, 4)(3, 5)(3, 6)(5, 6)| = 5 F-测量= 2a/(2a+b+c)

注意：在第 364 页的发布中有一个错误，其中计算了 a、b、c 和 d，而 b 和 c 的结果实际上切换不正确。这种转变会抛弃一些其他措施的结果。显然，F-measure 不受影响。

【讨论】：

【解决方案3】：

公式中的 N，F(C,K) = ∑ |词 | /N * max {F(ci,kj)}，是|ci|的总和总之，即它是元素的总数。您可能将其误认为是集群的数量，因此得到的答案大于 1。如果您进行更改，您的答案将介于 1 和 0 之间。

【讨论】：