从文本文档图像中提取文本检测特征答案

【问题标题】：Text detection feature extraction from text document images从文本文档图像中提取文本检测特征
【发布时间】：2015-05-21 09:47:43
【问题描述】：

我想开发一个应用程序来检测扫描文档中可能包含混合文本、图形、图像等的文本。我想我可以使用固定大小的滑动窗口技术并使用前馈 NN 或 SVM 对这些区域进行分类，但我在特征提取阶段卡住了常用的特征提取方法是什么？

【问题讨论】：

您已经决定了学习的最佳技术，但没有决定它将在哪些输入（功能）上运行？这听起来有点倒退。
如果文档是键入文本而不是手写文本，您甚至可以使用模板匹配而不是更复杂的机器学习算法。如果字符是手写的，您还可以使用原始像素作为特征和类似 k 近邻的算法，具体取决于手写的清晰程度。
@eigenchris 所有文字图片均为机器打印
@IbrahimAmer 一个简单的方法是使用mean square error 或cross correlation 等指标将每个字母与一组示例进行比较。

【解决方案1】：

如果所有字符都是机器打印的，那么简单而准确的特征之一就是每个预处理字符图像的归一化密度值。

您可以在此处将图像划分为固定数量的片段并计算每个片段的归一化密度值。然后您将获得每个字符的密度值向量，并继续使用 NN 或 SVM 进行分类。

【讨论】：

【解决方案2】：

以下内容可能会对您有所帮助。也许这对于您尝试做的事情来说有点过头了，但它旨在识别图像中的文本区域。

“具有边缘增强的最大稳定极值区域的自然图像中的鲁棒文本检测”(http://web.stanford.edu/~hchen2/papers/ICIP2011_RobustTextDetection.pdf)

你可以在 github 上找到一个相关的项目（我自己没有使用过）：https://github.com/subokita/Robust-Text-Detection 但你的示例图片可能值得一试。

有很多关于页面/文本分割的科学论文，在谷歌学者上搜索这些术语，你可以找到旧的、不太复杂的方法。一个例子是“使用快速特征提取和连通性分析的页面分割和分类”（http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.55.527&rep=rep1&type=pdf）

【讨论】：