【发布时间】:2015-05-21 09:47:43
【问题描述】:
我想开发一个应用程序来检测扫描文档中可能包含混合文本、图形、图像等的文本。我想我可以使用固定大小的滑动窗口技术并使用前馈 NN 或 SVM 对这些区域进行分类,但我在特征提取阶段卡住了常用的特征提取方法是什么?
【问题讨论】:
-
您已经决定了学习的最佳技术,但没有决定它将在哪些输入(功能)上运行?这听起来有点倒退。
-
如果文档是键入文本而不是手写文本,您甚至可以使用模板匹配而不是更复杂的机器学习算法。如果字符是手写的,您还可以使用原始像素作为特征和类似 k 近邻的算法,具体取决于手写的清晰程度。
-
@eigenchris 所有文字图片均为机器打印
-
@IbrahimAmer 一个简单的方法是使用mean square error 或cross correlation 等指标将每个字母与一组示例进行比较。
标签: image-processing machine-learning computer-vision ocr