【极简笔记】Focal Loss
Focal Loss for Dense Object Detection
文章的核心就是提出了focal loss用来取代原有的cross entropy loss
focal loss中是可调参数,实验中取最优。作者同样尝试加上 balance效果的loss function,当效果最好。作者同样试验了多种类似focal loss的函数均取得相似效果(Hinge loss不稳定不行)
用focal loss是为了解决检测正负样本比例不均衡的问题。比例不均衡导致(1)在大部分区域都是easy negatives导致训练不高效(2)easy negative数量太多,累积的loss主导了训练引起模型退化。focal loss通过大幅降低easy sample 权重,小幅降低hard sample权重(这点可以从公式中理解出来)从而增强两者对比使得hard sample loss能够主导训练误差。和Online Hard Example Mining(OHEM)区别是OHEM完全放弃了easy sample,FL还是保留了的,而且训练更加高效。
作者为了试验focal loss用了one-stage model RetinaNet和state-of-art进行了对比,获得曲线是现有结果的envelope。以及在RetinaNet网络初始化时候用了点trick(对CE和FL效果都好)。比如在二分类问题中常常设,出现频率高的一方的loss会主导总误差,在训练初期导致不稳定,因此想法是把频率高的一方设一个小的先验,例如,这能够增强训练稳定性(与loss function无关)。文中还有一句:Results are insensitive to the exact value of so we use for all experiments.