【问题标题】:Android OCR app : Tesseract dictionaryAndroid OCR 应用程序:Tesseract 字典
【发布时间】:2014-07-21 14:27:22
【问题描述】:

我正在开发一个 Android 应用程序,它可以拍摄照片并将其转换为文本。我在 Windows 上使用 tesseract 3。

我已设法使大部分翻译工作正常(在进行重新缩放、二值化、增强后),但某些字符仍未按应有的方式翻译(ri -> m、le -> Ie 等)。

为了纠正这个问题,我正在考虑强制 tesseract 查看我的语言词典(在我的情况下为法语)并使用最可能的单词进行翻译。当我打开法语词典时,我很惊讶地看到每个英语单词也是如此。

有没有办法强制 tesseract 以适当的语言找到最有可能的单词?

另外,我还没有在网上找到很多 android 代码示例,我不确定我是否在进行最有效的图像预处理。这就是我目前正在做的事情,你知道我该如何进一步改进吗?

photo = WriteFile.writeBitmap(Scale.scale(ReadFile.readBitmap(bitmap), 3, 3));
photo = WriteFile.writeBitmap(AdaptiveMap.backgroundNormMorph(ReadFile.readBitmap(photo)));

photo = WriteFile.writeBitmap(Binarize.otsuAdaptiveThreshold(ReadFile.readBitmap(photo))); 
photo = WriteFile.writeBitmap(Enhance.unsharpMasking(ReadFile.readBitmap(photo), 3, (float) 0.5));

感谢您的帮助

编辑:例如,这是我的结果

和文本结果:

社会行动

Les actions sociales regroupent les activités suivantes: Heureux évenements + Aide handicap + Aide scolarité + aide étudiante + Aide de secours, Malgré un nombre de bénéficiaires plus important et un coat moyen par activité plus éleve qu'en 2012,即 预算 2013 alloué couvre largement les besoins d'ou l'excédent constaté La C.F.T.C. ne peut que 后悔者 la 抑制 en 2013 de I‘activité «abonnement enfant» car son financement aurait pu étre couvert par l'excédent constaté

谢谢你:)

【问题讨论】:

  • 嗨,我需要从硬拷贝(如当前账单等硬拷贝等)中扫描小文本(文本大小接近 8 到 10sp)。我正在使用这个 github.com/rmtheis/android-ocr 项目。如何扫描较小的文本?我在这里感到震惊。请尽快帮助我。在此先感谢。

标签: android ocr tesseract


【解决方案1】:

Tesseract 有 user.dawg 文件,您可以在其中添加要添加到其字典中的单词。

但我要做的是通过额外的检查来运行输出。编写一个程序,按空格分割文本,删除标点符号,然后检查字典中的每个单词 - 如果该单词完全匹配,则这是真实单词,如果不是,则使用 Levenshtein 距离将该单词与其他单词进行比较。

我假设您的字典将是一个数据库,因此您可以做其他聪明的事情,您可以编写一个搜索确切单词的查询(显然),但是当找不到该单词时使用 SQL 中的LIKE operator 查找以您选择的方式相似的单词(例如所有以相同字母开头的单词),因此您仅在以相同字母开头的单词(或以您选择的方式看起来像您的单词的单词)上运行 Levenstein 距离) 从而节省不必要的比较。

【讨论】:

    猜你喜欢
    • 2012-04-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-11-17
    • 2023-03-16
    • 1970-01-01
    相关资源
    最近更新 更多