【发布时间】:2016-05-30 20:51:34
【问题描述】:
我的图像无法让 tesseract 识别为文本。我所有的输入文本都是 URL。
如您所见,图像尽可能清晰。
当运行tesseract test2.png stdout 时,它返回http:II11111111111111111111111111111111111
1111111111111111111.coml
,这很接近,但不正确。
当将tessedit_char_whitelist 参数设置为htp:/1.com 时,它会正确识别字符串(但我也希望对 URL 进行更一般的识别)。
使用命令行tesseract test2.png stdout --user-patterns ./patterns.txt 传入如下所示的模式文件
\n\*://\n\*
http://\n\*
\n\*.com
对识别没有帮助。它仍然更喜欢I 而不是/。 (有关pattern file的更多详细信息)
我还尝试将参数ok_repeated_ch_non_alphanum_wds 设置为包括/(和chs_trailing_punct{1,2} 用于尾随/,但它似乎不起作用。指定--user-words 也无济于事。(使用“词”是http://)
有没有办法为 tesseract 指定 char 优先级?
版本信息:
$ tesseract -v
tesseract 3.04.01
leptonica-1.73
libgif 5.1.2 : libjpeg 8d (libjpeg-turbo 1.4.2) : libpng 1.2.54 : libtiff 4.0.6 : zlib 1.2.8 : libwebp 0.4.4 : libopenjp2 2.1.0
【问题讨论】: