【发布时间】:2012-03-20 20:01:45
【问题描述】:
我正在使用 tesseract OCR 和 python-tesseract。 在tesseract FAQ 中,关于数字,我们有:
使用
TessBaseAPI::SetVariable("tessedit_char_whitelist", "0123456789");在调用 Init 函数之前或将其放入名为 tessdata/configs/digits:
tessedit_char_whitelist 0123456789然后你的命令行变成:
tesseract image.tif outputbase nobatch digits警告:在新旧配置变量合并之前,您必须 也有nobatch参数。
在 python-tesseract 中,存在 SetVariable 方法。我试过这个,但是 OCR 的结果是一样的:
api = tesseract.TessBaseAPI()
api.SetVariable("tessedit_char_whitelist", "0123456789")
api.Init('.','eng',tesseract.OEM_DEFAULT)
api.SetPageSegMode(tesseract.PSM_AUTO)
有人已经让这个工作了,还是我应该认为它是 python-tesseract 中的一个错误?
【问题讨论】: