对象检测 API - 处理多次标记的背景图像和对象答案

【问题标题】：Object Detection API - Processing background images and objects labeled multiply times对象检测 API - 处理多次标记的背景图像和对象
【发布时间】：2020-10-07 00:41:00
【问题描述】：

我使用 OD-API 来训练模型。关于处理背景图像和具有两次（或更多）不同标签名称的相同对象的图像的处理方式，以及使用faster_rcnn_resnet101 和SSD_mobilenet_v2 时，我有两个问题。

1- 当图像没有地面实况框（背景图像）时，即使我们没有 GT 框，我们是否会在使用 fRCNN（或 SSD 的默认框）的情况下为它们生成 Anchor 框？或者这种情况下的整个图像将是一个反例？

2- 当图像有两个（或更多）具有相同坐标但标签名称不同的 GT 框时，与锚框（或 SSD 的默认框）匹配时是否会出现问题？好像这里只有一个 GT 盒子会匹配？

我会很高兴得到任何帮助，我尝试阅读论文、教程和书籍，但找不到答案，或者我可能遗漏了一些东西。关于问题2，Andrew Ng教授在这篇video关于YOLO中的Anchor Boxes的6:55说，这种情况，当我们在同一个网格单元中有多个对象时，这些情况不能很好地处理。所以也许这同样适用于我的案件，即使我不知道我的案件会发生什么。另外我认为target_assigner.py和argmax_matcher.py这些文件有一些线索，但我也无法确定。

提前谢谢你

【问题讨论】：

标签： python tensorflow object-detection

【解决方案1】：

1) 锚框独立于地面实况框，并且基于图像形状（和锚配置）生成。目标是根据 GT 框和生成的锚点生成的，用于训练边界框回归头。如果没有ground truth box，则不生成目标，将整个图像用作分类头的负样本，而不影响回归头（它只在正样本上训练）。

2) 我不是 100% 确定这一点，但据我所知，边界框回归不会有问题（如果边界框相同，则 IoU 与锚点相同且目标分配者只会选择两者之一），但分类可能。 IIRC 有一些方法可以启用多标签分类（尽管我没有这方面的经验），所以这可能会对您有所帮助。不过，最好的解决方案是不要对对象进行多次注释。

【讨论】：