cocoapi如何计算map

相关概念
如何计算TP和FP
如何画出p-r曲线
如何计算ap
如何计算map
note

本文介绍coco style的map计算方式

如何计算TP和FP

计算TP和FP其实就是为所有的预测框分配gt bbox。
cocoapi的分配算法如下所示：
输入: 图片 $I$ ，类别 $C$ ，判定阈值 $threshold$
过程:

找到 $I$ 上所有属于 $C$ 类的预测框集合 $D$
找到 $I$ 上所有属于 $C$ 类的gt bbox集合 $G$
将 $D$ 按照分类置信度降序排列
$for\ d\ in\ D$
- $for\ g\ in\ G$
  - 对于任意 $g_{i}\ in\ G$ ，如果都有 $iou(d,g)>=iou(d,g_{i})$ 且 $iou(d,g)>=threshold$ ，则 $d$ 与 $g$ 匹配。
  - $G=G-g$

这样就为图片 $I$ 上属于 $C$ 类的预测框分配了gt bbox。一部分预测框分配到了gt bbox，一部分预测框没有分配到gt bbox，还有一部分gt bbox没有被任何预测框匹配。
接着，我们可以找到所有整个验证集上（例如coco val2017）上，属于 $C$ 类的预测框，然后将这些预测框按照分类置信度排列起来，假设gt bbox的数量为9，假设我们的检测结果如下：

预测框	分类置信度	是否匹配到gt bbox
$dt_{1}$	0.95	true
$dt_{2}$	0.9	true
$dt_{3}$	0.85	true
$dt_{4}$	0.8	false
$dt_{5}$	0.75	true
$dt_{6}$	0.7	true
$dt_{7}$	0.65	false
$dt_{8}$	0.6	true
$dt_{9}$	0.55	false
$dt_{10}$	0.5	true

按照上面提到的算法判断一个预测框是否匹配到gt bbox，可以得出上面的表格，不难计算此时 $TP=7$ ， $FP=3$ ，由于总共有9个gt bbox，所以还有2个gt bbox没有被检测出来（即没有任何一个预测框和gt bbox匹配），所以 $FN=2$ ，所以 $p=\frac{TP}{TP+FP}=0.7$ ， $r=\frac{TP}{TP+FN}=0.78$

如何画出p-r曲线

ap是p-r曲线下的面积。
我们现在已经得到了验证集（如coco val2017）的类别 $C$ 的检测结果，并且做出了上面的表格，接下来就需要画出p-r曲线。此时要计算各个r下的p值，注意TP和FP是累积的。可以对上表进一步计算：

预测框	分类置信度	是否匹配到gt bbox	TP	FP	$p$	$r$
$dt_{1}$	0.95	true	1	0	1.0	0.11
$dt_{2}$	0.9	true	2	0	1.0	0.22
$dt_{3}$	0.85	true	3	0	1.0	0.33
$dt_{4}$	0.8	false	3	1	0.75	0.33
$dt_{5}$	0.75	true	4	1	0.8	0.44
$dt_{6}$	0.7	true	5	1	0.83	0.56
$dt_{7}$	0.65	false	5	2	0.71	0.56
$dt_{8}$	0.6	true	6	2	0.75	0.67
$dt_{9}$	0.55	false	6	3	0.67	0.67
$dt_{10}$	0.5	true	7	3	0.7	0.78

最终 $r$ 接近于1而 $p$ 接近于0。我们可以用上表的中的 $r$ 为横坐标， $p$ 为纵坐标画出一条曲线，即p-r曲线，这条曲线通常情况是单调递减的曲线，起点为 $(0,1)$ ，终点为 $(1,0)$ ，想了解更多请参见西瓜书。
cocoapi如何计算map
图片来源见水印

如何计算ap

目前我们得到了验证集上 $C$ 类的p-r曲线， $C$ 类的ap值即为p-r曲线下的面积，由于这条曲线的具体表达式很难找出，所以我们找一个估计值来尽可能接近真实的ap值。
在cocoapi的估计方式对这条曲线进行均匀的采样，即分别取 $r=0.00,\ 0.01,\ 0.02,\ \cdots ,1.00$ 时对应的 $p$ 值，然后计算这101个 $p$ 值得平均值，就得到了该验证集上 $C$ 类的ap。

如何计算map

只需要计算全部类别的 $ap$ 的均值。

note

在coco style的map的计算过程中，还有另外两个约束条件maxdet，预测框的scale范围，这些都是用来约束预测框的。
比如maxdet=100，就在上面算法中，寻找 $D$ 时，只将图片 $I$ 的 $C$ 类预测框分类置信度最高的100个框加入 $D$ 。
当scale范围为 $[0，32^{2}]$ 时，就在上面算法中，寻找 $D$ 时，只将图片 $I$ 的 $C$ 类所有scale落在 $[0，32^{2}]$ 范围内的预测框加入 $D$ 。
后面的计算方式均不变。

转载请注明出处