【发布时间】:2014-05-19 13:59:16
【问题描述】:
您好,我想使用 PIL 和 tesseract 对这张图片进行 ocr,通常它可以正常工作,尽管这张图片中的轮廓编号像 1148,但 tesseract 无法识别它。所以想用PIL把大纲文字1148填充成实心文字,但是不知道怎么做。任何帮助,将不胜感激。请。
这是我的代码:
api = tesseract.TessBaseAPI()
api.Init(".","eng",tesseract.OEM_DEFAULT)
api.SetVariable("tessedit_char_whitelist", "0123456789.")
api.SetPageSegMode(tesseract.PSM_AUTO
pic = ImageGrab.grab((120,90,180,650))
pic = pic.filter(ImageFilter.CONTOUR)
pic.save("321.png")
mImgFile = "321.png"
mBuffer=open(mImgFile,"rb").read()
result = tesseract.ProcessPagesBuffer(mBuffer,len(mBuffer),api)
print result
【问题讨论】:
标签: python-imaging-library ocr tesseract outline