【发布时间】:2018-11-19 16:44:52
【问题描述】:
我正在使用 pytessarect (0.2.5) 读取同一页面上不同结构的文档,即:
SomeText
SomeText
SomeText
SomeTextSomeTextSomeTextSomeTextSomeText
SomeText: SomeText SomeText: SomeText:
SomeText: SomeText SomeText SomeText SomeText
SomeText: SomeText
SomeText: SomeText
SomeText: SomeText
SomeText: SomeText
我希望 tessarect 逐行读取数据,到目前为止,我刚刚通过具有类似问题的帖子(Here 和 Here)找到了 psm 选项(在 0-13 之间变化,最推荐使用 psm 4 或 6) .不幸的是,我尝试了 psm 的所有选项并且可以解决我的问题。我查看了文档,但找不到其他选项。有人遇到过类似的问题并成功解决了吗?尽管有 psm,有没有办法强制 tesseract 逐行读取图像? 非常感谢任何帮助!
编辑:现在下部是按列读取的,我试图阻止。
Edit2:添加的命令
text = []
tess_cfg = '--psm 6 --oem 1 --hocr'
for image in images:
text= pytesseract.image_to_string(Image.open(image), lang = 'eng', config = tess_cfg)
【问题讨论】:
-
你能上传你正在使用的图片吗?以及你正在运行的命令?
-
不幸的是,图像是合同,所以我不能上传那些,我希望我的代码有点帮助。
-
你需要的是
pytesseract.image_to_pdf_or_hocr而不是image_to_string
标签: python-3.x tesseract python-tesseract