tesseract 输出文本，但只是废话答案

【问题标题】：tesseract outputs text, but only nonsensetesseract 输出文本，但只是废话
【发布时间】：2013-03-11 14:33:44
【问题描述】：

我在 Mac 上使用带有瑞典语训练数据的 tesseract，http://code.google.com/p/tesseract-ocr/downloads/detail?name=swe.traineddata.gz

我从命令行运行以下命令： sudo tesseract -l swe my.png my.txt

这就是它在 my.txt 中输出的内容：

uavum-rn om: mgm.
:mm om names N............
m fw.
<>..,...,.....1,». mm. ^V.m..»...1 W u
|............................ mmm
m«.......
n....... ~.«......«y.= mm
Am...
M-Q-..y...@»~.U.M........»...........   
.;.§............. MYM... WU..
M. www
.<W..L.....w.m.,w»
mm... Hm... ^......... a.....ß..... M
M..
Hm... 3....
>«........
N
1
G
n.......
mmm
mmm »
mmm
MW:-u >«..«.......
M.».....«@>-ms... .a »mm »1
mm... nu .<....-...WMA _..
m........m mm
WW» m
mm w
.-...............u. 
|-...M-11.”.
|........m :>...1.1-1»-.N
Kwwm
M...-«
|.~.»...:-u1.«..... ,-...........
mm M
.-M».....m ...A m...m..<....ß.-.W
.mwwm .M M»-..U..........k
.....-W... .W-;-1

是否有一些我错过的参数，我做错了？

谢谢。

【问题讨论】：

标签： ocr tesseract

【解决方案1】：

我已经有一段时间没有玩过这个引擎了，但是你的笔记给我敲响了警钟，所以我检查了这个网站。我认为您需要使用此文件 Swedish language data for Tesseract 3.02，因为我怀疑您使用的是上一版本的训练数据。

如果我找到了您问题的根源，请标记我的答案好吗？ ;)

【讨论】：

hmm，替换 swe.traineddata 开始给出以下内容：actual_tessdata_num_entries_
哦 - 你没有使用 3.02？我想我应该看看你的图片，我想我可以
哎呀——我还有更多想说的！我提取了您的图像，我想我可以看到问题：文本非常小，甚至我们的 OCR 引擎也很难读取字符。我没有时间检查，但您确定图像存储正确吗？你能以某种方式使用原图 100% 比例的图像吗？
嗨，你可能是对的。它是从 pdf 转换而来的，我想必须有一些参数才能让 imagemagick 在转换时保持图像大小。我会运行它，看看是否会产生更好的结果。我使用 brew 安装，它给了我 3.01，因为这是探索性的，试图了解 tesseract 如何处理我们拥有的一些问题文档，我只是想快速了解一下。
实际上，我正在尝试准备经过训练的手写文本数据，第一步，我扫描了所有手写文本并进行采样，然后执行 code.google.com 中提到的所有步骤的文档，然后在我的项目中使用 tessdata (trained-data) 和 Ver 3.x 时我遇到了同样的问题：actual_tessdata_num_entries_