【发布时间】:2019-12-14 02:11:45
【问题描述】:
我正在使用 pytesseract 库来创建一个 OCR 翻译不和谐机器人。但是 tesseract 的输出 90% 完全是乱码,我不明白为什么。
我尝试使用的图像已被裁剪到我希望使用的区域。我试图通过 PIL 将图像转换为灰度,但是 pytesseract 将不会输出任何内容。
我正在使用 pytesseract (0.2.7) 和 tesseract (v5 alpha) 的最新版本
我使用以下代码从互联网获取图像,通过 tesseract 传递它,然后(注释)翻译文本。
from PIL import Image
import requests
import pytesseract
from io import BytesIO
from translate import Translator
translator = Translator(from_lang="autodetect", to_lang="en")
response = requests.get('https://image.prntscr.com/image/acqm3LDeSJOHtUZEMfA9eA.png')
#image = Image.open(BytesIO(response.content)).convert('LA')
image = Image.open(BytesIO(response.content))
string = pytesseract.image_to_string(image, lang='fra')
#image.save('greyscale.png')
print(string.format())
#translation = translator.translate(string)
#print(translation)
我从 tesseract 得到的输出可以在这里找到:https://pastebin.com/kDYuTE4Q
我对 tesseract 和 python 都是全新的,所以我可能做错了一些根本性的错误,或者我向 tesseract 提出了一些目前不可能的问题。
【问题讨论】:
标签: python python-3.x tesseract python-tesseract