【问题标题】:Tesseract - What should I do with multi font type?Tesseract - 我应该如何处理多字体类型?
【发布时间】:2013-03-19 08:56:31
【问题描述】:

我有一个像这样的文件输入(只有数字,但有多种字体类型)。所以如果我想使用 Tesseract 来训练数据。我应该在一个 tiff 文件中制作一组一种字体类型,还是在一个 tiff 文件中制作多种字体类型?

有什么更好的,请告诉我一些提示。感谢您的所有帮助。

【问题讨论】:

    标签: windows image ocr tesseract


    【解决方案1】:

    每个训练图像中的一种字体样式。 Tesseract Training Wiki 声明如下:

    • 训练数据应按字体分组。理想情况下,所有样本 一个字体应该放在一个 tiff 文件中,但这可能是 多页 tiff(如果您安装了 libtiff 或 leptonica),所以 单一字体的总训练数据可能有很多页和很多 10s 数千个字符,允许训练大字符集 语言。

    • 请勿在图像文件中混合字体(在单个 .tr 文件中
      精确。)这将导致特征在聚类时被丢弃,这 导致识别错误。

    【讨论】:

      猜你喜欢
      • 2021-03-03
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多