pytesseract / Tesseract 逐行输出答案

【问题标题】：pytessarect / Tessarect rowwise line outputpytesseract / Tesseract 逐行输出
【发布时间】：2018-11-19 16:44:52
【问题描述】：

我正在使用 pytessarect (0.2.5) 读取同一页面上不同结构的文档，即：

SomeText
SomeText
SomeText

SomeTextSomeTextSomeTextSomeTextSomeText

SomeText:  SomeText  SomeText: SomeText:
SomeText:  SomeText  SomeText SomeText SomeText
SomeText:  SomeText
SomeText:  SomeText

SomeText:  SomeText
SomeText:  SomeText

我希望 tessarect 逐行读取数据，到目前为止，我刚刚通过具有类似问题的帖子（Here 和 Here）找到了 psm 选项（在 0-13 之间变化，最推荐使用 psm 4 或 6） .不幸的是，我尝试了 psm 的所有选项并且可以解决我的问题。我查看了文档，但找不到其他选项。有人遇到过类似的问题并成功解决了吗？尽管有 psm，有没有办法强制 tesseract 逐行读取图像？非常感谢任何帮助！

编辑：现在下部是按列读取的，我试图阻止。

Edit2：添加的命令

text = [] 
tess_cfg = '--psm 6 --oem 1 --hocr'   
for image in images:
   text= pytesseract.image_to_string(Image.open(image), lang = 'eng', config = tess_cfg)

【问题讨论】：

你能上传你正在使用的图片吗？以及你正在运行的命令？
不幸的是，图像是合同，所以我不能上传那些，我希望我的代码有点帮助。
你需要的是pytesseract.image_to_pdf_or_hocr而不是image_to_string

标签： python-3.x tesseract python-tesseract

【解决方案1】：

我可以找到我的错误，您使用tess_cfg = '--psm 6 --oem 1 --hocr' 或tess_cfg = '-psm 6 -oem 1 -hocr' 似乎有所不同。第一个似乎无法正常工作。

【讨论】：