SegLink ++: Detecting Dense and Arbitrary-shaped Scene Text by Instance-aware Component Grouping

角度

该论文针对的是文本检测任务中类似于商品信息等图片具有密集且任意形状的文本框的问题。首先作者分析了现有的两个文本检测的大方向，第一个是自上而下的检测方法，这一类方法大多直接回归一个文本框或四边形来标注文本区域。这一类方法的好处是对于多方向的文本检测比较好，但是它很难处理好训练数据在长宽比上的不均匀的问题，导致了对横宽比比较奇异的文本检测能力差，同时，因为回归一整个框的缘故，对于奇异形状文本的检测也比较弱。另一类方法是自下而上的检测方法，这一类方法可以分为两种，一种是如同PSENet一样回归pixel级别的结果后聚合成文本块，另一种是如同本文一样回归一些文本块，后通过连线等成为大的文本框。这类方法对与奇异形状的文本有较好的表现，但是对于密集的文本容易混淆，同时，后处理用时严重，基于此，作者提出一个基于从下到上的，可以在密集文本中区分不同文本块的Instance-aware Component Grouping方法。

思想

作者在原先的SegLink的基础上增加了两种线，一种是attractive link，一种是repulsive link，这两种线，一种是将属于同个文本区域的seg相连，一种是将属于不同文本区域的seg相拒。特别的，作者还提出了一种instance-aware loss，将后处理加入到优化中

Seglink的思想是用SSD来做文本块的检测，而且不是一次检测一整个文本框，而是文本框的一部分

细节

1. 网络的流程

网络生成文本块&attractive link和repulsive link–>用modified minimum spanning tree来连线文本块–>将连线的文本块找到其最小外接多边形–>用nms进行筛选

2. 神经网络的结构

SegLink ++: Detecting Dense and Arbitrary-shaped Scene Text by Instance-aware Component Grouping

3. 文本块的生成

SSD的目标检测方法是在不同分辨率的feature map的每个点取值，然后转化为对其感受野中心的框的预测值，主要有8个值，两个是前后背景的置信度，6个是偏移参数，具体为：

SegLink ++: Detecting Dense and Arbitrary-shaped Scene Text by Instance-aware Component Grouping

其中，x，y是位移距离，w,h是尺度缩放，Θ是旋转角。而α是对应框的size，对应不同的feature map为12,24,45,90,150,285。

而匹配框的产生方式为：

SegLink ++: Detecting Dense and Arbitrary-shaped Scene Text by Instance-aware Component Grouping

（a）确定感受野中心在某个文本区域中，（b）后旋转这个区域中和它最匹配的框到0度，（c）在旋转后的文本框中裁剪出对应的目标框，一个水平对齐，垂直匹配的框，（d）将文本区域旋转回去，则得到xg，yg还有目标的hg与wg，最后，和这个目标框最佳的层被选择 SegLink ++: Detecting Dense and Arbitrary-shaped Scene Text by Instance-aware Component Grouping

4. attractive link和repulsive link的生成

最底层的feature map生成的框只和自己上下左右左上左下右上右下的框有连线，同一个文本区域为attractive link，不同文本区域为repulsive link；而除了最底层，其他层还有和比自己下一层的代表原先自已位置的四个框有连线。而一个连线有4个参数，分别是attractive link的是否两个，repulsive link的是否两个，凑成了四个线。所以最底层feature map的channel是8+4x8，其他是8+4x(8+4)

其中，有连线的attractive link为1，不为同一块repulsive link的为1，否则都为0

5. instance-aware loss

对于每个框的相关参数的loss的计算要乘上一个权重，这个权重是由seg和ground truth之间的iou来决定的，为1/iou，这样把后处理中的难度大的框分配更大的权重

6. loss的计算

先是seg的loss，为softmax loss+smooth L1

SegLink ++: Detecting Dense and Arbitrary-shaped Scene Text by Instance-aware Component Grouping

然后是attractive link和repulsive link的loss，做了加权和样本均衡

SegLink ++: Detecting Dense and Arbitrary-shaped Scene Text by Instance-aware Component Grouping

最后两者加权合并

SegLink ++: Detecting Dense and Arbitrary-shaped Scene Text by Instance-aware Component Grouping

7. OHEM

分别对seg中的分类和attractive link和repulsive link做正负样本为1:3的OHEM

8.后处理

SegLink ++: Detecting Dense and Arbitrary-shaped Scene Text by Instance-aware Component Grouping

后将连线的文本块找到其最小外接多边形–>用nms进行筛选

结果

在作者自己创建上的商品信息文本检测数据上得到最优，在其他文本检测任务也达到当时任务的state of the art

潜在的难解决的错误

SegLink ++: Detecting Dense and Arbitrary-shaped Scene Text by Instance-aware Component Grouping

横竖文本的难分辨问题，缺少对语义的理解