【问题标题】:Python 2.7: Difficulty using pypdfocr for Windows 7Python 2.7:在 Windows 7 上使用 pypdfocr 的困难
【发布时间】:2017-08-08 17:11:46
【问题描述】:

我正在尝试在带有 Python 2.7 的 Windows 7 中使用 pypdfocr

这是我在cmd 中尝试pypdfocr 时收到的错误消息:

C:\Users\chamar.stu>pypdfocr F:\test2.pdf 开始转换 F:\test2.pdf 'pdfimages' 不被识别为内部或外部 命令、可运行的程序或批处理文件。警告:无法执行 pdfimages 来计算 DPI(尝试安装 xpdf 或 po ppler?),所以 默认为 300dpi Traceback(最近一次调用最后一次):文件 "c:\users\chamar.stu\appdata\local\continuum\anaconda2\lib\runpy.py", 第 174 行,在 _run_module_as_main .... ....

pypdfocr\pypdfocr_tesseract.py",第 98 行,在 _is_version_uptodate ver = [int(x) for x in ver_str.split('.')] ValueError: int() 以 10 为底的无效文字:'00alpha'

似乎我缺少PopplerXPDF,但我确实按照here 的建议通过PyGoObject 安装了Poppler。我还按照建议here 在我的环境路径中链接了xpdf

有什么建议可以让我摆脱这个小麻烦吗?

【问题讨论】:

    标签: python ocr pypdf


    【解决方案1】:

    pypdfocr 脚本可能正在使用subprocess 模块调用pdfimages 程序(poppler 实用程序 之一,而不是库)。

    我无法轻易辨别您提到的 URI 中是否提供了实用程序。

    如果没有,您可以为实用程序找到预构建的 ms-windows 可执行文件,例如here.

    确保安装 poppler 实用程序的位置在您的PATH 中,以便pypdfocr 可以找到它。

    【讨论】:

    • 好的,谢谢 -- 网站上 Popple .exe 的链接已关闭。我必须等待它重新启动...
    【解决方案2】:

    尝试将 Tesseract 从版本 4.0.0-beta.1(我的情况)降级到名称中不包含字母数字的版本 3.x。

    tesseract --version#检查

    pypdfocr 包中内置的版本检查期望版本号为整数,因此'00alpha' 上的错误(在我的情况下为'0-beta'

    【讨论】:

      猜你喜欢
      • 2012-06-14
      • 2020-04-14
      • 2017-03-08
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-07-25
      • 2013-12-25
      • 1970-01-01
      相关资源
      最近更新 更多