【问题标题】:tesseract outputs text, but only nonsensetesseract 输出文本,但只是废话
【发布时间】:2013-03-11 14:33:44
【问题描述】:

我在 Mac 上使用带有瑞典语训练数据的 tesseract,http://code.google.com/p/tesseract-ocr/downloads/detail?name=swe.traineddata.gz

我从命令行运行以下命令: sudo tesseract -l swe my.png my.txt

这就是它在 my.txt 中输出的内容:

uavum-rn om: mgm.
:mm om names N............
m fw.
<>..,...,.....1,». mm. ^V.m..»...1 W u
|............................ mmm
m«.......
n....... ~.«......«y.= mm
Am...
M-Q-..y...@»~.U.M........»...........   
.;.§............. MYM... WU..
M. www
.<W..L.....w.m.,w»
mm... Hm... ^......... a.....ß..... M
M..
Hm... 3....
>«........
N
1
G
n.......
mmm
mmm »
mmm
MW:-u >«..«.......
M.».....«@>-ms... .a »mm »1
mm... nu .<....-...WMA _..
m........m mm
WW» m
mm w
.-...............u. 
|-...M-11.”.
|........m :>...1.1-1»-.N
Kwwm
M...-«
|.~.»...:-u1.«..... ,-...........
mm M
.-M».....m ...A m...m..<....ß.-.W
.mwwm .M M»-..U..........k
.....-W... .W-;-1

是否有一些我错过的参数,我做错了?

谢谢。

【问题讨论】:

    标签: ocr tesseract


    【解决方案1】:

    我已经有一段时间没有玩过这个引擎了,但是你的笔记给我敲响了警钟,所以我检查了这个网站。我认为您需要使用此文件 Swedish language data for Tesseract 3.02,因为我怀疑您使用的是上一版本的训练数据。

    如果我找到了您问题的根源,请标记我的答案好吗? ;)

    【讨论】:

    • hmm,替换 swe.traineddata 开始给出以下内容:actual_tessdata_num_entries_
    • 哦 - 你没有使用 3.02?我想我应该看看你的图片,我想我可以
    • 哎呀——我还有更多想说的!我提取了您的图像,我想我可以看到问题:文本非常小,甚至我们的 OCR 引擎也很难读取字符。我没有时间检查,但您确定图像存储正确吗?你能以某种方式使用原图 100% 比例的图像吗?
    • 嗨,你可能是对的。它是从 pdf 转换而来的,我想必须有一些参数才能让 imagemagick 在转换时保持图像大小。我会运行它,看看是否会产生更好的结果。我使用 brew 安装,它给了我 3.01,因为这是探索性的,试图了解 tesseract 如何处理我们拥有的一些问题文档,我只是想快速了解一下。
    • 实际上,我正在尝试准备经过训练的手写文本数据,第一步,我扫描了所有手写文本并进行采样,然后执行 code.google.com 中提到的所有步骤的文档,然后在我的项目中使用 tessdata (trained-data) 和 Ver 3.x 时我遇到了同样的问题:actual_tessdata_num_entries_
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-01-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多