【发布时间】:2013-03-19 08:56:31
【问题描述】:
我有一个像这样的文件输入(只有数字,但有多种字体类型)。所以如果我想使用 Tesseract 来训练数据。我应该在一个 tiff 文件中制作一组一种字体类型,还是在一个 tiff 文件中制作多种字体类型?
有什么更好的,请告诉我一些提示。感谢您的所有帮助。
【问题讨论】:
标签: windows image ocr tesseract
我有一个像这样的文件输入(只有数字,但有多种字体类型)。所以如果我想使用 Tesseract 来训练数据。我应该在一个 tiff 文件中制作一组一种字体类型,还是在一个 tiff 文件中制作多种字体类型?
有什么更好的,请告诉我一些提示。感谢您的所有帮助。
【问题讨论】:
标签: windows image ocr tesseract
每个训练图像中的一种字体样式。 Tesseract Training Wiki 声明如下:
训练数据应按字体分组。理想情况下,所有样本 一个字体应该放在一个 tiff 文件中,但这可能是 多页 tiff(如果您安装了 libtiff 或 leptonica),所以 单一字体的总训练数据可能有很多页和很多 10s 数千个字符,允许训练大字符集 语言。
请勿在图像文件中混合字体(在单个 .tr 文件中
精确。)这将导致特征在聚类时被丢弃,这
导致识别错误。
【讨论】: