一.摘要

1.基于滑动窗口的目标检测生成稠密,规则网格的bounding-box是很火热的
TensorMask: A Foundation for Dense Object Segmentation
2.相比之下,现代的实例分割方法被后述的方法所主导,它首先检测对象边界框,然后裁剪和分割这些区域,如Mask R-CNN所推广的那样

TensorMask: A Foundation for Dense Object Segmentation
3.object detection中有dense的方法(如yolo,ssd,retinanet),也有R-CNN这类two-stage的方法;然而在instance segmentation中,目前却没有dense方面的工作,本文的目的就是要用dense的方法来做一下instance segmentation,希望能促进这方面的研究

4.本文4D的tensor形状具体为(V,U,H,W),(H,W)代表原图上不同的位置,(V,U)则代表一个mask。要理解好这个4D的tensor,一个很重要的点是(H,W)和(V,U)对应到原图上不一定是(H,W)和(V,U)pixel大小的区域。比如对于ResNet-50,stride为16,因此在HxW的subtensor上移动1个pixel对应原图上移动16个pixel,这样才能保证HxW能均匀分布在原图上。文章称这个为unit of length,H,W方向的为δ_HW,V,U方向上的为δ_VU,如果δ_VU=1,则对应原图上一个VxU的window的mask,如果δ_VU=2,则对应一个2Hx2W的window,至于具体δ怎么确定,这在下面的多尺度部分会说到。另外定义α=δ_VU/δ_HW

自然表示和对齐表示

(1)自然表示:对于一个四维形状张量(V,U,H,W),它在(V,U, y,x)处的值表示的是掩模的值在坐标( y +αv,x +αu)并在αv×αu窗口集中在(y, x)
TensorMask: A Foundation for Dense Object Segmentation
(2)对齐表示:对于一个四维形状张量(V,U,H,W),它在(V,U, y,x)处的值表示的是掩模的值在坐标( y ,x )并在αv×αu窗口集中在(y-αv, x-αx),也就是说在 ,位于 (y, x) 的子张量 (V, U) 表示偏移像素 (y+αv, x+αu) 的值,而不是直接表示 (y, x) 的值。在使用卷积计算特征时,保持输入像素和输出像素的对齐能带来很多性能上的提升

自然表示和对齐表示的对应方式
TensorMask: A Foundation for Dense Object Segmentation

(3)放大转换(Upscaling Transformation),对齐表征允许使用粗粒度的子张量 (V hat, U hat) 创建细粒度的子张量 (V, U)
TensorMask: A Foundation for Dense Object Segmentation
(4)张量 Bipyramid:在目标框检测中,使用特征金字塔非常常见。为此在 Mask 张量中,我们不再使用 V ×U 个单元表示不同尺度的 Mask,我们提出了这种基于尺度来调整 Mask 像素数量的方法
TensorMask: A Foundation for Dense Object Segmentation

相关文章: