向 Tesseract 3 添加新字体

【问题标题】：Adding New Fonts to Tesseract 3向 Tesseract 3 添加新字体
【发布时间】：2014-11-30 01:52:36
【问题描述】：

我正在尝试向 tesseract ocr 添加新字体。我正在关注this tutorial，但我遇到了一些问题。

这是我到目前为止所做的：

创建培训文档

convert eng.myfont.exp0.pdf eng.myfont.exp0.tif
训练正方体

tesseract eng.myfont.exp0.tif eng.myfont.exp0 batch.nochop makebox

这创建了我的 eng.myfont.exp0.box 文件。

我用 moshpytt 打开文件并确保它被正确检测到。
将盒子文件送回 tesseract

tesseract eng.myfont.exp0.tif eng.myfont.exp0.box nobatch box.train.stderr

我有这个结果：

Tesseract 开源 OCR 引擎 v3.03 与 Leptonica
APPLY_BOXES：
从 boxfile 读取的盒子：146
找到 146 个好的 blob。
培训 ... 字体名称 = myfont.exp0
生成 6 个单词的训练数据
- eng.myfont.exp0.box.tr 文件和 eng.myfont.exp0.box.txt 生成
尝试检测盒子文件中使用的字符集（这是我卡住的地方）

unicharset_extractor *.box

结果：

unicharset_extractor：找不到命令

我也尝试了unicharset_extractor eng.myfont.exp0.box，结果相同。

我正在使用：

tesseract 3.03
leptonica-1.70
libgif 4.1.6(?)：libjpeg 8d：libpng 1.2.50：libtiff 4.0.3：zlib 1.2.8：webp 0.4.0
Ubuntu 14.04.1 LTS

【问题讨论】：

这很奇怪。这只是意味着找不到该命令。在我的系统上，我可以在 /usr/local/bin/unicharset_extractor 中毫无问题地找到该命令。

标签： ocr tesseract

【解决方案1】：

在 Ubuntu 14.04 中省略了 Tesseract 3.03 RC 的训练工具。所以要么回退到 Tesseract 3.02，要么升级到 Ubuntu 14.10，应该有它。

【讨论】：

我在 OS X EI Captain 10.11.1 终端中也遇到了同样的问题。我使用以下版本 tesseract 3.04.01 leptonica-1.72 libjpeg 8d：libpng 1.6.21：libtiff 4.0.6：zlib 1.2.5

【解决方案2】：

好的，我为你搜索了这个。答案如下：

您需要在输入文件所在的同一文件夹中运行所有命令。

发件人：

【讨论】：

猜你喜欢

1970-01-01
2013-04-26
1970-01-01
1970-01-01
1970-01-01
2020-07-01
2020-08-28
1970-01-01
1970-01-01

相关资源

下载 2021-06-05
下载 2022-12-15
下载 2023-01-18
下载 2022-12-31

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode