【发布时间】:2014-05-12 06:01:17
【问题描述】:
我目前正在研究某种 OCR(光学字符识别)系统。我已经编写了一个脚本来从文本中提取每个字符并清除(大部分)不规则性。我也知道字体。例如,我现在拥有的图像是:
M(http://i.imgur.com/oRfSOsJ.png(字体)和http://i.imgur.com/UDEJZyV.png(扫描))
K(http://i.imgur.com/PluXtDz.png(字体)和http://i.imgur.com/TRuDXSx.png(扫描))
C(http://i.imgur.com/wggsX6M.png(字体)和http://i.imgur.com/GF9vClh.png(扫描))
对于所有这些图像,我已经有了一种二进制矩阵(1 表示黑色,0 表示白色)。我现在想知道是否有某种类似于数学投影的公式来查看这些矩阵之间的相似性。我不想依赖图书馆,因为那不是交给我的任务。
我知道这个问题可能看起来有点模糊,并且有类似的问题,但我正在寻找方法,而不是包,到目前为止我找不到任何关于该方法的 cmets。这个问题含糊不清的原因是我真的没有开始的意义。我想要做的实际上是在维基百科上描述的:
矩阵匹配涉及逐个像素地将图像与存储的字形进行比较;它也被称为“模式匹配”或“模式识别”。 [9]这依赖于输入字形与图像的其余部分正确隔离,并且存储的字形具有相似的字体和相同的比例。此技术最适用于打字文本,但在遇到新字体时效果不佳。这是早期基于物理光电池的 OCR 实现的技术,相当直接。 (http://en.wikipedia.org/wiki/Optical_character_recognition#Character_recognition)
如果有人能帮我解决这个问题,我将不胜感激。
【问题讨论】:
标签: math matrix ocr projection