实例分割
Hao Chen陈昊 CVPR2020 BlendMask实例分割
COCO上评价指标 mAP 每个实例,每张图选100个结果
AP:每个结果与GT算IOU 0.5:0.05:0.95 十个取平均
COCO泛化性好,不容易过拟合
缺:COCO标注不过精细
但是这个评价指标没有对更关注边界像素的情况,只是检测的IOU迁移过来的
Cascade R-CNN , Mask RCNN。 Cascade R-CNN等都是基于Mask的
Mask R-CNN
Faster+ FPN
FPN输入1414
channel都是256
缺:
FPN的输入和ROI过程下采样过多,细节丢的太多(1414)
PointRend:
想提升二阶段实例的分辨率,(把有锯齿的部分细节恢复)
PointRend vs Blend Mask
Blend可以用更小的分辨率做到更小,
Mask第二阶段需要0.7G的FLOPS
Blend更少
全卷积方法则何如
一 Bottom up:每个像素分类,融合
SOLO(和Mask有点相当了)
分类问题监督明确,focal loss,增加一组坐标系,
使用FPN,把一张图的结果分散到不同map中,减少了每张图的复杂程度
缺:场景非常复杂时,分类问题平方级的变难,high level信息不够,仅仅是通过绝对位置坐标来关联融合
SOLOv2有提高
二 Top Down
DeepMask
14x14
缺:一个点预测整个实例时,
InstanceFCN
每个feature map局部只做局部的事,只判断物体的一部分
Tensor Mask
原版比Mask R-CNN慢
三Proposal-Based(基于检测框,类似Mask, crop then assemble)
对实例进行定位,大概估计出实例姿态
FCIS
nearestneighbor+ one-hot
MaskLab
检测框,对检测框分成3X3或者小格,再分别处理
YOLACT
channel组合
Blender
FCIS空间组合+YOLACT的channel组合
更平滑的空间组合方式进行差值(不是切格子,比较灵活)
算是三维attention
4个 score maps (YOLACT32个, FCIS49个)
Top module
输出三维attention,FCOS加了一层卷积
Bottom Module
Blender
橙色是检测模块
蓝色是top mpdule
绿色是语义分割
四组颜色代表四个channel,即4个score map
attention捕捉到的就是姿态
bottom中,S对应的是8,即上采样到1/8
kxMxM , K 是4 , M是7或者14
通过双线性差值平铺到实例上,加权求和得到最终结果
对比试验:
物体局部分的好一些
SOLOv算是one-stage