【发布时间】:2014-11-30 01:52:36
【问题描述】:
我正在尝试向 tesseract ocr 添加新字体。我正在关注this tutorial,但我遇到了一些问题。
这是我到目前为止所做的:
-
创建培训文档
convert eng.myfont.exp0.pdf eng.myfont.exp0.tif -
训练正方体
tesseract eng.myfont.exp0.tif eng.myfont.exp0 batch.nochop makebox这创建了我的 eng.myfont.exp0.box 文件。
我用 moshpytt 打开文件并确保它被正确检测到。
-
将盒子文件送回 tesseract
tesseract eng.myfont.exp0.tif eng.myfont.exp0.box nobatch box.train.stderr我有这个结果:
Tesseract 开源 OCR 引擎 v3.03 与 Leptonica
APPLY_BOXES:
从 boxfile 读取的盒子:146
找到 146 个好的 blob。
培训 ... 字体名称 = myfont.exp0
生成 6 个单词的训练数据- eng.myfont.exp0.box.tr 文件和 eng.myfont.exp0.box.txt 生成
-
尝试检测盒子文件中使用的字符集(这是我卡住的地方)
unicharset_extractor *.box
结果:
unicharset_extractor:找不到命令
我也尝试了unicharset_extractor eng.myfont.exp0.box,结果相同。
我正在使用:
- tesseract 3.03
- leptonica-1.70
- libgif 4.1.6(?):libjpeg 8d:libpng 1.2.50:libtiff 4.0.3:zlib 1.2.8:webp 0.4.0
- Ubuntu 14.04.1 LTS
【问题讨论】:
-
这很奇怪。这只是意味着找不到该命令。在我的系统上,我可以在
/usr/local/bin/unicharset_extractor中毫无问题地找到该命令。