文本检测网络CTPN学习(一)

　　 CTPN文字检测网络，是在2016年的论文Detecting Text in Natural Image with Connectionist Text Proposal Network中提出，其在Fast-rcnn的基础上进行改进，提出了一种适合检测文字的神经网络，算是一篇开创性的论文，影响了后面文本检测算法的方向。其对横向文本的检测能力很好，目前也常用于文档，合同和发票等领域的的文本检测。

　　关于CTPN文字检测方法，可以从下面五个方面来进行理解：网络结构，anchor的正负样本分配，标注数据前处理，loss函数，文本线构造算法

1. 网络结构

　　原始论文中CTPN的结构如下，网络最后输出包括三部分，scores表示是否文文本区域的置信度，vertical coordinates表示每一个box的中心点x坐标和高度，side-refinement表示对于左右两侧边界处box的x坐标偏移值

文本检测网络CTPN学习(一)

　　目前很多CTPN实现代码，网络输出都只包括两部分，scores和boxes两部分，scores表示是否为文本区域的置信度，boxes表示对box的中心点x坐标，y坐标，高度和宽度(和通用目标检测一样)。相比于原始论文方法，这种方式对于网络来说，学习起来困难一点，但对于每一个box都进行更见准确的偏移修正，结果应该会更加精确。实际工作中，我主要也使用这种方法，其结构如下：

文本检测网络CTPN学习(一)

　　网络结构的数据流程图如下：

　　1.尺寸为(1, 3, 600, 900)的图片经过vgg_base提取特征，得到尺寸为(1, 512, 37, 56)，再经过一层卷积后尺寸为(1, 512*9, 37, 56)

　　2. 尺寸为(1, 512*9, 37, 56)的特征图经过RNN，输出尺寸为(1, 256, 37, 56), 再经过一层卷积后尺寸为(1, 512, 37, 56)

　　3尺寸为(1, 512, 37, 56)的特征图，分别经过loc和score两个分支卷积，经过loc分支得到(1, 40, 37, 56)，这里的通道数40表示10个anchor，每个anchor包括(center_x, centert_y, w, h); 经过score分支得到(1, 20, 37, 56)，20表示10个anchor，每个anchor包括文本区域和背景两个类别

　　对于连接vgg_base和RNN的那个卷积需要注意下，原始论文中采用caffe的img2col, 其过程如下：

文本检测网络CTPN学习(一)

　　img2col参考代码：

#pytorch实现im2col
class Im2col(nn.Module):
    def __init__(self, kernel_size, stride, padding):
        super(Im2col, self).__init__()
        self.kernel_size = kernel_size
        self.stride = stride
        self.padding = padding

    def forward(self, x):
        height = x.shape[2]
        x = F.unfold(x, self.kernel_size, padding=self.padding, stride=self.stride)
        x = x.reshape((x.shape[0], x.shape[1], height, -1))
        return x

Img2col实现