Day-2 YOLO3(持续完善)
基础
BoundingBox 预测
图中3*3的方格中每个方格中的标签y为8维。
对于这里9个格子中任何一个,你都会得到一个8维输出向量,因为这里是3×3的网格,所以有9个格子,总的输出尺寸是3×3×8,所以目标输出是3×3×8。
如果你现在要训练一个输入为100×100×3的神经网络,现在这是输入图像,然后你有一个普通的卷积网络,卷积层,最大池化层等等,最后你会有这个,选择卷积层和最大池化层,这样最后就映射到一个3×3×8输出尺寸。
这是在一次卷积中实现的。
交并比与非极大值抑制
交并比称为IoU。在计算机检测任务中,如果IoU>=0.5,就说检测正确
抛弃低概率的预测框,防止同一个目标被多次检测。
YOLO3算法
预测
1.Darknet53
2.从特征层获取预测结果
1、YOLO3会提取三个特征层,三个特征层的shape分别为(52,52,256)、(26,26,512)、(13,13,1024)
2、三个特征层进行5次卷积处理,处理完后一部分用于输出该特征层对应的预测结果,一部分用于进行反卷积UmSampling2d后与其它特征层进行结合。
3、输出层的shape分别为(13,13,75),(26,26,75),(52,52,75),最后一个维度为75是因为该图是基于voc数据集的,它的类为20种,yolo3只有针对每一个特征层存在3个先验框,所以最后维度为3x25;
如果使用的是coco训练集,类则为80种,最后的维度应该为255 = 3x85,三个特征层的shape为(13,13,255),(26,26,255),(52,52,255)
输入N张416x416的图片,在经过多层的运算后,会输出三个shape分别为(N,13,13,255),(N,26,26,255),(N,52,52,255)的数据,对应每个图分为13x13、26x26、52x52的网格上3个先验框的位置。