【发布时间】:2014-07-21 14:27:22
【问题描述】:
我正在开发一个 Android 应用程序,它可以拍摄照片并将其转换为文本。我在 Windows 上使用 tesseract 3。
我已设法使大部分翻译工作正常(在进行重新缩放、二值化、增强后),但某些字符仍未按应有的方式翻译(ri -> m、le -> Ie 等)。
为了纠正这个问题,我正在考虑强制 tesseract 查看我的语言词典(在我的情况下为法语)并使用最可能的单词进行翻译。当我打开法语词典时,我很惊讶地看到每个英语单词也是如此。
有没有办法强制 tesseract 以适当的语言找到最有可能的单词?
另外,我还没有在网上找到很多 android 代码示例,我不确定我是否在进行最有效的图像预处理。这就是我目前正在做的事情,你知道我该如何进一步改进吗?
photo = WriteFile.writeBitmap(Scale.scale(ReadFile.readBitmap(bitmap), 3, 3));
photo = WriteFile.writeBitmap(AdaptiveMap.backgroundNormMorph(ReadFile.readBitmap(photo)));
photo = WriteFile.writeBitmap(Binarize.otsuAdaptiveThreshold(ReadFile.readBitmap(photo)));
photo = WriteFile.writeBitmap(Enhance.unsharpMasking(ReadFile.readBitmap(photo), 3, (float) 0.5));
感谢您的帮助
编辑:例如,这是我的结果
和文本结果:
社会行动
Les actions sociales regroupent les activités suivantes: Heureux évenements + Aide handicap + Aide scolarité + aide étudiante + Aide de secours, Malgré un nombre de bénéficiaires plus important et un coat moyen par activité plus éleve qu'en 2012,即 预算 2013 alloué couvre largement les besoins d'ou l'excédent constaté La C.F.T.C. ne peut que 后悔者 la 抑制 en 2013 de I‘activité «abonnement enfant» car son financement aurait pu étre couvert par l'excédent constaté
谢谢你:)
【问题讨论】:
-
嗨,我需要从硬拷贝(如当前账单等硬拷贝等)中扫描小文本(文本大小接近 8 到 10sp)。我正在使用这个 github.com/rmtheis/android-ocr 项目。如何扫描较小的文本?我在这里感到震惊。请尽快帮助我。在此先感谢。