【问题标题】:Adding New Fonts to Tesseract 3向 Tesseract 3 添加新字体
【发布时间】:2014-11-30 01:52:36
【问题描述】:

我正在尝试向 tesseract ocr 添加新字体。我正在关注this tutorial,但我遇到了一些问题。

这是我到目前为止所做的:

  1. 创建培训文档

    convert eng.myfont.exp0.pdf eng.myfont.exp0.tif

  2. 训练正方体

    tesseract eng.myfont.exp0.tif eng.myfont.exp0 batch.nochop makebox

    这创建了我的 eng.myfont.exp0.box 文件。

    我用 moshpytt 打开文件并确保它被正确检测到。

  3. 将盒子文件送回 tesseract

    tesseract eng.myfont.exp0.tif eng.myfont.exp0.box nobatch box.train.stderr

    我有这个结果:

    Tesseract 开源 OCR 引擎 v3.03 与 Leptonica
    APPLY_BOXES:
    从 boxfile 读取的盒子:146
    找到 146 个好的 blob。
    培训 ... 字体名称 = myfont.exp0
    生成 6 个单词的训练数据

    • eng.myfont.exp0.box.tr 文件和 eng.myfont.exp0.box.txt 生成
  4. 尝试检测盒子文件中使用的字符集(这是我卡住的地方)

    unicharset_extractor *.box

结果:

unicharset_extractor:找不到命令

我也尝试了unicharset_extractor eng.myfont.exp0.box,结果相同。

我正在使用:

  • tesseract 3.03
  • leptonica-1.70
  • libgif 4.1.6(?):libjpeg 8d:libpng 1.2.50:libtiff 4.0.3:zlib 1.2.8:webp 0.4.0
  • Ubuntu 14.04.1 LTS

【问题讨论】:

  • 这很奇怪。这只是意味着找不到该命令。在我的系统上,我可以在 /usr/local/bin/unicharset_extractor 中毫无问题地找到该命令。

标签: ocr tesseract


【解决方案1】:

在 Ubuntu 14.04 中省略了 Tesseract 3.03 RC 的训练工具。所以要么回退到 Tesseract 3.02,要么升级到 Ubuntu 14.10,应该有它。

【讨论】:

  • 我在 OS X EI Captain 10.11.1 终端中也遇到了同样的问题。我使用以下版本 tesseract 3.04.01 leptonica-1.72 libjpeg 8d:libpng 1.6.21:libtiff 4.0.6:zlib 1.2.5
【解决方案2】:

好的,我为你搜索了这个。答案如下:

您需要在输入文件所在的同一文件夹中运行所有命令。

发件人:

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2013-04-26
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-07-01
    • 2020-08-28
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多