TensorMask: A Foundation for Dense Object Segmentation

一.摘要

1.基于滑动窗口的目标检测生成稠密，规则网格的bounding-box是很火热的

2.相比之下，现代的实例分割方法被后述的方法所主导，它首先检测对象边界框，然后裁剪和分割这些区域，如Mask R-CNN所推广的那样
TensorMask: A Foundation for Dense Object Segmentation
3.object detection中有dense的方法（如yolo，ssd，retinanet），也有R-CNN这类two-stage的方法；然而在instance segmentation中，目前却没有dense方面的工作，本文的目的就是要用dense的方法来做一下instance segmentation，希望能促进这方面的研究

4.本文4D的tensor形状具体为（V,U,H,W），（H,W）代表原图上不同的位置，（V,U）则代表一个mask。要理解好这个4D的tensor，一个很重要的点是（H,W）和（V,U）对应到原图上不一定是（H,W）和（V,U）pixel大小的区域。比如对于ResNet-50，stride为16，因此在HxW的subtensor上移动1个pixel对应原图上移动16个pixel，这样才能保证HxW能均匀分布在原图上。文章称这个为unit of length，H,W方向的为δ_HW，V,U方向上的为δ_VU，如果δ_VU=1，则对应原图上一个VxU的window的mask，如果δ_VU=2，则对应一个2Hx2W的window，至于具体δ怎么确定，这在下面的多尺度部分会说到。另外定义α=δ_VU/δ_HW

自然表示和对齐表示

（1）自然表示：对于一个四维形状张量(V,U,H,W)，它在(V,U, y,x)处的值表示的是掩模的值在坐标( y +αv，x +αu)并在αv×αu窗口集中在(y, x)
TensorMask: A Foundation for Dense Object Segmentation
（2）对齐表示：对于一个四维形状张量(V,U,H,W)，它在(V,U, y,x)处的值表示的是掩模的值在坐标( y ，x )并在αv×αu窗口集中在(y-αv, x-αx)，也就是说在，位于 (y, x) 的子张量 (V, U) 表示偏移像素 (y+αv, x+αu) 的值，而不是直接表示 (y, x) 的值。在使用卷积计算特征时，保持输入像素和输出像素的对齐能带来很多性能上的提升

自然表示和对齐表示的对应方式
TensorMask: A Foundation for Dense Object Segmentation

（3）放大转换（Upscaling Transformation），对齐表征允许使用粗粒度的子张量 (V hat, U hat) 创建细粒度的子张量 (V, U)
TensorMask: A Foundation for Dense Object Segmentation
（4）张量 Bipyramid：在目标框检测中，使用特征金字塔非常常见。为此在 Mask 张量中，我们不再使用 V ×U 个单元表示不同尺度的 Mask，我们提出了这种基于尺度来调整 Mask 像素数量的方法
TensorMask: A Foundation for Dense Object Segmentation