Face ++在COCO竞赛中大放异彩,在多个领域获得COCO 2017的冠军。其中,由彭超研究院带领的检测团队获得了检测项目的冠军。同时,对应论文也发表在CVPR 2018上,属于spotlight论文。


论文标题:MegDet: A Large Mini-Batch Object Detector》
论文地址:https://arxiv.org/pdf/1711.07240.pdf


摘要

MegDet将batch size增加到了256,这对于主流检测网络来说(faster r-cnn/retinaNet等)是一个巨型的batch size。
MegDet的backbone用的使resnet-50,在backbone上没有什么创新。这个目前检测领域最强的模型的创新点集中在mini-batch上。
用超大的mini-batch size,有以下直接好处:

  1. 可以并行训练,用128块GPU训练这256的batch,这样将训练时间大大缩短(33h -> 4h).
  2. batch normalization的效果更好,一个超大的batch-size意味着一个超强的BN。对于全局BN的获取,文章中提出了一个CGBN,即跨越GPU获得一个全局的BN。对于BN有疑问的可以转《batch normalization》.

其实看到这里,就已经完全掌握了论文中的创新点。可以继续往下看细节


大batch和小batch的效果差异

MegDet论文详解(coco2017检测冠军)
上图比较了batch size为256和16的情况,明显可以看到,超大的batch size会使网络收敛得更快,而且效果更佳。
文章中提到下列现象和原因:

  1. 小batch训练时间长到难以忍受;(比如resnet-152在COCO数据集上用8块泰坦XP还训练了3天)
  2. 小batch不足以提供准确得数据分布统计给BN层。
  3. 小batch的正负样本很难平衡,如果训练时正负样本不均匀也会损害训练效果。(有石锤说明的)

等价学习率原则

对于之前他人的经验,有一个“等价学习率原则”。即,如果你的batch size比较大,那你需要一个更大的学习率才能保证你的准确率。
事实上,在检测任务中,如果直接遵循这个原则,可能导致训练结果不收敛的后果。
于是,MegDet改进了这个原则,借鉴了“warmup”学习率策略。热身策略,即一开始用比较小的学习率,待“热身”起来,慢慢增大学习率。这样,既可以获得很高的准确率,又可以避免模型训练不收敛。


Cross-GPU Batch Normalization (CGBN)

前面说到,Meg对于一个batch(256)的计算分部在128块GPU上,如果想取得一个全局的BN,那必须跨越GPU来求得。
这个策略也是很简单的,看图:
MegDet论文详解(coco2017检测冠军)
只是在BN的基础上加了一个GPU间通信,求一个全局的平均数μ\mu,一个全局的方差σ2\sigma^2,再根据μ\muσ2\sigma^2进行标准化。最后,通过可学习参数γ\gammaβ\beta对标准化结果进行一个线性变换。为什么要这么做?因为这就是BN的做法,不解可移步《batch normalization》。
当然,CGBN操作也不一定需要求得全局BN,我们也可以定义不同的BN size。作者对不同的BN size对效果的影响也做了一些实验:
MegDet论文详解(coco2017检测冠军)

相关文章:

  • 2021-09-10
  • 2022-12-23
  • 2021-05-13
  • 2021-05-18
  • 2021-11-05
  • 2021-11-28
  • 2021-08-29
猜你喜欢
  • 2021-11-19
  • 2021-09-22
  • 2021-04-22
  • 2021-12-22
  • 2021-03-31
  • 2021-12-14
  • 2021-07-13
相关资源
相似解决方案