目前这类在自然图像中和实例分割很相近,给出每类别个体的分类,同时首先给出单个体的候选检测框。针对这类最新的方法很像Mask-RCNN的形式,包含RPN提取候选框,在faster RCNN的基础网络上添加分割支路,像何凯明的mask RCNN的关键在于如何构建一个ROI warp层,通过精心设计该层,实现网络能够实现多任务的联合训练。
针对联合检测和分割,近期在了解和收集资料,在此先给出我了解的联合检测和分割的参考文献。
1 Mask R-CNN
我们提出一个概念上简单,灵活,一般对象实例分割框架。我们的方法同时高效地检测图像中的物体为每个实例生成高质量的分段掩码。这种称为Mask R-CNN的方法延伸得更快R-CNN通过添加一个分支来预测对象中的掩码与现有的边界框识别分支平行。mask R-CNN训练简单,只增加一点点开销更快的R-CNN,运行速度为5 fps。此外mask R-CNN很容易推广到其他任务,例如允许我们在相同的框架下估计人的姿势。我们在COCO数据的所有三个曲目中显示最佳结果挑战,包括实例分割,边界框对象检测和人员关键点检测。没有技巧,Mask R-CNN胜过所有现有的单一模式包括COCO2016挑战在内的每一项任务获奖者。我们希望我们的简单而有效的做法作为一个坚实的基线,并有助于缓解未来的研究实例级别的识别。代码将被提供。
本文的创新点:1)在边框识别的基础上添加分支网络,用于 语义Mask 识别;
2)训练简单,相对于 Faster 仅增加一个小的 Overhead,可以跑到 5FPS;
3)可以方便的扩展到其他任务,比如人的姿态估计等;
4)不借助 Trick,在每个任务上,效果优于目前所有的 single-modelentries;
2 BiSeg: Simultaneous Instance Segmentation and Semantic Segmentation with Fully Convolutional Networks
我们提出了一个简单而有效的框架,用于完全卷积网络(FCNs)的同时语义分割和实例分割。方法,称为BiSeg,预测实例分割作为贝叶斯推断的后验,其中语义分割被用作先验分析。我们扩展位置敏感分数的想法在最近的方法中使用的地图在不同的尺度上融合多个得分图分区模式,并将其作为分割推理的一个强大的可能性。由于贝叶斯推理和地图融合都是按像素执行的,因此BiSeg是一种完全卷积的端到端解决方案,它继承了FCN的所有优点。们展示在PASCAL VOC上实现最先进的实例分割精度。
3 Translation-aware Fully Convolutional Instance Segmentation
第一个基于FCN的纯粹的实例分割方法
•2016年COCO分割挑战第一名,比第二名好11%
•比2015年锦标赛(MNC)好33%
•我们赢回了挑战!
•用于实例分割的最快的基于CNN的方法
•使用K40 GPU上的ResNet-101,0.24秒/ img
•比MNC快6倍。
4 Fully Convolutional Instance-aware Semantic Segmentation
我们提出了第一个完全卷积端到端解决方案的实例感知语义分割任务。它继承了FCNs语义分割的所有优点[29]和实例掩码建议[5]。它检测并分段对象实例联合和同时使用。通过引入位置敏感的内部/外部得分图,潜在的卷积表示是完全共享的两个子任务之间,以及所有区域之间出于兴趣。拟议的网络是高度集成的在准确性和实用性方面都达到了最先进的性能效率。它在很大程度上赢得了COCO 2016细分市场的竞争。代码将在
https://github.com/daijifeng001/TA-FCN。
5 Instance-aware Semantic Segmentation via Multi-task Network Cascades
语义分割研究近来见证了进步很快,但是很多领先的方法都无法实现识别对象实例。在本文中,我们提出了多任务网络Cascades实例感知语义分割。我们的模型由三个网络组成,分别区分实例,估计掩码和对象分类。这些网络形成一个级联结构,旨在共享其卷积特征。我们为这种因果级联结构的非平凡端到端训练开发了一种算法。我们的解决方案是清洁的,单步式的培训框架,可以推广到更多阶段的级联。我们展示在PASCAL VOC上实现最先进的实例感知语义分割准确性。同时,我们的方法只需要360ms使用VGG-16(这是两个命令)测试图像这个挑战性的问题比以前的系统要快得多。作为副产品,我们的方法也达到了令人信服的物体检测结果超越竞争性的快速/快速的R-CNN系统。本文所描述的方法是基础我们提交给MS COCO 2015细分比赛,我们赢得了第一名。