数据合成方法：论文 Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition

Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition中的数据合成方法

论文全文：https://arxiv.org/pdf/1406.2227.pdf

第二部分合成数据：

由于论文中的CNN模型将整个单词图像作为输入而不是单个字符图像，因此必须有一个有剪裁单词图像的训练数据集。虽然ICDAR ，街景文本（SVT）数据集等公开的数据集可用，但数据量过少。

因此，我们遵循一些合成字符数据集[4 de T. Campos, B. R. Babu, and M. Varma. Character recognition in natural images. 27.End-to-end text recognition with convolutional neural networks]的成功，并创建一个合成字符数据生成器，能够模拟场景中文本图像的分布。这是一个合理的方法。

数据合成方法：论文 Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition

上图说明了生成过程和一些得到的合成数据样本。这些样本由三个单独的图像层组成 - 背景图像层，前景图像层和可选的边界/阴影图像层 - 它们是具有alpha通道的图像的形式。合成数据生成过程如下：

字体渲染 - 从Google字体下载的1400多种字体的目录中随机选择字体。字距，重量，下划线和其他属性从任意定义的分布中随机变化。该单词使用水平底部文本行或随机曲线渲染到前景图像层的Alpha通道。
边框/阴影渲染 - 从前景渲染中插入具有随机宽度的边框，外部边框或阴影。
基础着色 - 三个图像层中的每一个都填充有从自然图像上采样的不同的均匀颜色。通过k-means将训练数据集的每个图像的三个颜色分量聚类。 [聚类填充颜色]
透视变换- 前景和边界/阴影图像层随机扭曲，投影变换，模拟3D世界。[透视变换]
自然数据融合 - 每个图像层与来自ICDAR 2003和SVT的训练数据集的随机采样的图像混合。混合和α混合模式的量由随机过程决定，这产生了折衷的纹理和组合范围。三个图像层也以随机方式融合在一起，得到单个输出图像。[组合纹理和颜色特征]
噪声。高斯噪声、图像压缩随机加入到图像中

生成的单词样本具有32像素的固定高度，宽度可变。由于CNN的输入是固定大小的图像，因此将生成的图像resize为宽度为100像素的图像。虽然这不保留纵横比，但图像特征的水平频率失真最有可能提供字长提示。我们还尝试了不同的填充方式以保持纵横比，但发现结果不如调整大小那么好。