tesseract 2.x - 同时使用多种字体

【问题标题】：tesseract 2.x - using multiple fonts at the same timetesseract 2.x - 同时使用多种字体
【发布时间】：2012-10-04 02:53:37
【问题描述】：

我已经成功地训练了 tesseract 2.x 来识别一些特定的字体。但是，似乎我无法让 tesseract 同时识别所有这些字体——即源图像包含所有这些字体。目前只能将一组 tesseract 数据放入 tessdata 文件夹（即一组具有一种训练好的字体）。

我知道 tesseract 3.x 可以正确处理多种字体 - 但是，我无法升级，因为没有与 .NET 的良好绑定，它与 2.x 版的 .NET 绑定具有相同的功能。

另外，我想避免对每种字体进行多次预处理和 OCR 本身。

【问题讨论】：

【解决方案1】：

对于 Tesseract 2.0x，一个语言数据包可以识别多种字体。你cluster你的训练文件了吗？

Tesseract 3.01 有几个出色的 .NET 包装器。查看其AddOn 页面了解更多信息。

【讨论】：

只有一个 .NET 包装器用于 tesseract 3（我知道），而且质量非常差 - 使用默认 tessdata 进行 OCR 会产生非常糟糕的结果。然而，最大的问题是，做这样的 OCR 将比 tesseract 2 的 .NET 包装器多花费大约 10-20 倍的时间。关于集群 - 我错过了那个。我以为我不能在集群中混合字体。相反，我不能在一张训练图像中混合字体。