如何一次运行多种语言的 tesseract？答案

【问题标题】：How can I run tesseract with multiple languages one time?如何一次运行多种语言的 tesseract？
【发布时间】：2014-08-14 07:28:11
【问题描述】：

我必须分析包含英文和日文文本的图像。当我默认运行 tesseract (-l eng) 时，一些日文字符会丢失。否则，如果我使用日语 (-l jpn) 运行 tesseract，则会丢失一些英文字符（例如电子邮件）。

如何运行一个同时识别英文和日文字符的进程？

【问题讨论】：

希望这会有所帮助：github.com/rmtheis/tess-two/issues/28
见stackoverflow.com/questions/16508796/…

标签： image-processing ocr tesseract

【解决方案1】：

从 tesseract 3.02 开始，可以为 -l 参数指定多种语言。

-l lang 要使用的语言。如果未指定，则假定为英语。可以指定多种语言，用加号分隔。 Tesseract 使用 3 个字符的 ISO 639-2 语言代码。

一个例子：

tesseract myscan.png out -l deu+eng

【讨论】：

但是对精度有什么影响呢？如果我没有指定另一种语言，是否会有一些英语单词错误的风险？如果我不知道文档的语言并选择十种语言怎么办？ tesseract 是否只是在整个文本中尝试所有语言，然后根据每种语言的字典保留看起来更可能正确的单词？

【解决方案2】：

试试这个：

custom_config = r'-l eng+jpn --psm 6'
txt = pytesseract.image_to_string(img, config=custom_config)

from langdetect import detect_langs
detect_langs(txt)

注意：您必须使用以下方法安装 langdetect：

 pip install langdetect

【讨论】：