【问题标题】:python-tesseract OCR: get digits onlypython-tesseract OCR:仅获取数字
【发布时间】:2012-03-20 20:01:45
【问题描述】:

我正在使用 tesseract OCR 和 python-tesseract。 在tesseract FAQ 中,关于数字,我们有:

使用

TessBaseAPI::SetVariable("tessedit_char_whitelist", "0123456789");

在调用 Init 函数之前或将其放入名为 tessdata/configs/digits:

tessedit_char_whitelist 0123456789

然后你的命令行变成:

tesseract image.tif outputbase nobatch digits

警告:在新旧配置变量合并之前,您必须 也有nobatch参数。

在 python-tesseract 中,存在 SetVariable 方法。我试过这个,但是 OCR 的结果是一样的:

api = tesseract.TessBaseAPI()
api.SetVariable("tessedit_char_whitelist", "0123456789")
api.Init('.','eng',tesseract.OEM_DEFAULT)
api.SetPageSegMode(tesseract.PSM_AUTO)

有人已经让这个工作了,还是我应该认为它是 python-tesseract 中的一个错误?

【问题讨论】:

    标签: python tesseract


    【解决方案1】:

    好的,开始工作了。 根据 tesseract-ocr 的(unofficial ?) documentation,必须在 Init() 之后调用 SetVariable(),尽管官方常见问题解答中的说法相反。 在 Init() 按预期工作之后调用它。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2015-08-09
      • 1970-01-01
      • 2013-02-06
      • 2012-11-17
      • 2013-03-18
      • 1970-01-01
      • 1970-01-01
      • 2015-12-21
      相关资源
      最近更新 更多