像素级掩码标记非常耗时且繁琐,简单对每类语义划一条线作为标记,使用简笔标记的结果训练卷积网络进行语义分割,将降低标记人员工作量。基于图模型将简笔标记的信息,结合空间约束、外观及语义内容,传播到未标记的像素上。
在PASCAL VOC上的简笔标记数据:
http://research.microsoft.com/en-us/um/people/jifdai/downloads/scribble_sup
使用简笔标记的结果训练卷积网络,属于弱监督学习,处于图像级标记和box级标记之间。与图像级标记相比,简笔提供了若干像素的位置信息。与box级标记相比,简笔标记物体边界信息比较模糊,简笔标记更有挑战性。
简笔监督学习
简笔标记与像素级mask标记的区别如下图所示:
训练算法的两个任务:标记传播,语义分割。
- 目标函数
使用图模型进行像素传播,图中的点表示超像素,边表示超像素间的相似度,图模型如下图所示:
目标函数为:
其中ψi 是包含超像素xi 的一元项,ψij 是成对项,包含两个超像素。ψi 包含两部分,第一部分基于简笔标记,表示为ψscri ,定义如下:
上式中,第一个条件表示超像素与简笔标记重合,第二个条件不重合,可以等概率的分配到任何类。
第二部分表示卷积网的输出,定义为
其中Θ 表示网络的参数,logP(yi|X,Θ) 表示xi 具有标记yi 的概率,是像素级每个像素概率之和。成对象ψij 表示两个超像素的相似度,用颜色和纹理直方图hc(xi) 和ht(xi) 定义: - 优化问题
最终需要优化的问题,即标记Y和网络参数Θ ,通过固定一个,求解另外一个方式优化,如下表示:
标记传播
固定Θ ,一元项通过枚举所有可能标记估算,优化问题可通过图割算法求解。
网络参数优化
网络模型为FCN,进行像素级回归,FCN最后一层输出更新图模型中的一元项。
下图表示了训练图像标记传播的过程,网络更新过程中,语义信息变得可靠,传播的标记更为精确,超像素及图模型仅用于训练,在测试过程中,只需要FCN。
实验结果
与其它弱监督方法在pascal voc2012上的对比