Python 2.7：在 Windows 7 上使用 pypdfocr 的困难答案

【问题标题】：Python 2.7: Difficulty using pypdfocr for Windows 7Python 2.7：在 Windows 7 上使用 pypdfocr 的困难
【发布时间】：2017-08-08 17:11:46
【问题描述】：

我正在尝试在带有 Python 2.7 的 Windows 7 中使用 pypdfocr。

这是我在cmd 中尝试pypdfocr 时收到的错误消息：

C:\Users\chamar.stu>pypdfocr F:\test2.pdf 开始转换 F:\test2.pdf 'pdfimages' 不被识别为内部或外部命令、可运行的程序或批处理文件。警告：无法执行 pdfimages 来计算 DPI（尝试安装 xpdf 或 po ppler？），所以默认为 300dpi Traceback（最近一次调用最后一次）：文件 "c:\users\chamar.stu\appdata\local\continuum\anaconda2\lib\runpy.py", 第 174 行，在 _run_module_as_main .... ....

pypdfocr\pypdfocr_tesseract.py"，第 98 行，在 _is_version_uptodate ver = [int(x) for x in ver_str.split('.')] ValueError: int() 以 10 为底的无效文字：'00alpha'

似乎我缺少Poppler 或XPDF，但我确实按照here 的建议通过PyGoObject 安装了Poppler。我还按照建议here 在我的环境路径中链接了xpdf。

有什么建议可以让我摆脱这个小麻烦吗？

【问题讨论】：

标签： python ocr pypdf

【解决方案1】：

pypdfocr 脚本可能正在使用subprocess 模块调用pdfimages 程序（poppler 实用程序 之一，而不是库）。

我无法轻易辨别您提到的 URI 中是否提供了实用程序。

如果没有，您可以为实用程序找到预构建的 ms-windows 可执行文件，例如here.

确保安装 poppler 实用程序的位置在您的PATH 中，以便pypdfocr 可以找到它。

【讨论】：

好的，谢谢 -- 网站上 Popple .exe 的链接已关闭。我必须等待它重新启动...

【解决方案2】：

尝试将 Tesseract 从版本 4.0.0-beta.1（我的情况）降级到名称中不包含字母数字的版本 3.x。

tesseract --version#检查

pypdfocr 包中内置的版本检查期望版本号为整数，因此'00alpha' 上的错误（在我的情况下为'0-beta'）

【讨论】：