python-tesseract OCR：仅获取数字答案

【问题标题】：python-tesseract OCR: get digits onlypython-tesseract OCR：仅获取数字
【发布时间】：2012-03-20 20:01:45
【问题描述】：

我正在使用 tesseract OCR 和 python-tesseract。在tesseract FAQ 中，关于数字，我们有：

使用

TessBaseAPI::SetVariable("tessedit_char_whitelist", "0123456789");

在调用 Init 函数之前或将其放入名为 tessdata/configs/digits：

tessedit_char_whitelist 0123456789

然后你的命令行变成：

tesseract image.tif outputbase nobatch digits

警告：在新旧配置变量合并之前，您必须也有nobatch参数。

在 python-tesseract 中，存在 SetVariable 方法。我试过这个，但是 OCR 的结果是一样的：

api = tesseract.TessBaseAPI()
api.SetVariable("tessedit_char_whitelist", "0123456789")
api.Init('.','eng',tesseract.OEM_DEFAULT)
api.SetPageSegMode(tesseract.PSM_AUTO)

有人已经让这个工作了，还是我应该认为它是 python-tesseract 中的一个错误？

【问题讨论】：

标签： python tesseract

【解决方案1】：

好的，开始工作了。根据 tesseract-ocr 的(unofficial ?) documentation，必须在 Init() 之后调用 SetVariable()，尽管官方常见问题解答中的说法相反。在 Init() 按预期工作之后调用它。

【讨论】：