【问题标题】:pytessarect / Tessarect rowwise line outputpytesseract / Tesseract 逐行输出
【发布时间】:2018-11-19 16:44:52
【问题描述】:

我正在使用 pytessarect (0.2.5) 读取同一页面上不同结构的文档,即:

SomeText
SomeText
SomeText

SomeTextSomeTextSomeTextSomeTextSomeText

SomeText:  SomeText  SomeText: SomeText:
SomeText:  SomeText  SomeText SomeText SomeText
SomeText:  SomeText
SomeText:  SomeText

SomeText:  SomeText
SomeText:  SomeText

我希望 tessarect 逐行读取数据,到目前为止,我刚刚通过具有类似问题的帖子(HereHere)找到了 psm 选项(在 0-13 之间变化,最推荐使用 psm 4 或 6) .不幸的是,我尝试了 psm 的所有选项并且可以解决我的问题。我查看了文档,但找不到其他选项。有人遇到过类似的问题并成功解决了吗?尽管有 psm,有没有办法强制 tesseract 逐行读取图像? 非常感谢任何帮助!

编辑:现在下部是按列读取的,我试图阻止。

Edit2:添加的命令

text = [] 
tess_cfg = '--psm 6 --oem 1 --hocr'   
for image in images:
   text= pytesseract.image_to_string(Image.open(image), lang = 'eng', config = tess_cfg)

【问题讨论】:

  • 你能上传你正在使用的图片吗?以及你正在运行的命令?
  • 不幸的是,图像是合同,所以我不能上传那些,我希望我的代码有点帮助。
  • 你需要的是pytesseract.image_to_pdf_or_hocr而不是image_to_string

标签: python-3.x tesseract python-tesseract


【解决方案1】:

我可以找到我的错误,您使用tess_cfg = '--psm 6 --oem 1 --hocr'tess_cfg = '-psm 6 -oem 1 -hocr' 似乎有所不同。第一个似乎无法正常工作。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2023-03-16
    • 1970-01-01
    • 2022-08-09
    • 1970-01-01
    • 2012-03-20
    • 1970-01-01
    • 2022-09-28
    相关资源
    最近更新 更多