p1967914901

Python提取图片中的文字信息

使用的Python库

Python tesseractPython的一个光学字符识别(OCR)工具。也就是说,它将识别并“读取”嵌入图像中的文本。

Python tesseractGoogle tesseract OCR引擎的包装器。它还可用作tesseract的独立调用脚本,因为它可以读取PillowLeptonica图像库支持的所有图像类型,包括jpeg、png、gif、bmp、tiff等。此外,如果用作脚本,Python tesseract将打印识别的文本,而不是将其写入文件。

程序如下

import pytesseract
from PIL import Image

print(pytesseract.image_to_string(Image.open(\'./1A2737EC36534A6636E062FF17838D99.jpg\'), lang=\'chi_sim\'))

安装识别引擎tesseract-ocr

如果有以下报错:
在这里插入图片描述
则还需要安装识别引擎tesseract-ocr
网上下载安装包,然后直接点击安装即可
因为tesseract-ocr默认不支持中文识别,所以解压安装tesseract-ocr后还需下载对应的语言包
在这里插入图片描述
安装完成tesseract-ocr后,我们还需配置一下
C:\Users\ASUS\AppData\Local\Programs\Python\Python38\Lib\site-packages\pytesseract中找到pytesseract.py
打开后做如下操作:

# tesseract_cmd = \'tesseract\'
tesseract_cmd = \'D:/Tesseract-OCR/tesseract.exe\'

环境变量设置

根据这个教程设置环境变量
接下来便可以使用程序来进行文字识别提取

分类:

技术点:

相关文章: