【发布时间】:2020-11-09 23:17:44
【问题描述】:
我正在尝试使用 pdfminer.six 库(如 here)从 pdf 中提取文本,我已经将它安装在我的虚拟环境中。这是我的代码:
import pdfminer as miner
text = miner.high_level.extract_text('file.pdf')
print(text)
但是当我使用python pdfreader.py 执行代码时,出现以下错误:
Traceback (most recent call last):
File ".\pdfreader.py", line 9, in <module>
text = miner.high_level.extract_text('pdfBulletins/corona1.pdf')
AttributeError: module 'pdfminer' has no attribute 'high_level'
我怀疑它与 Python 路径有关,因为我在虚拟环境中安装了 pdfminer,但我看到它在我的系统 python 安装中安装了 pdf2txt.py。这种行为正常吗?我的意思是我的venv 内部发生的事情不应该改变我的系统 Python 安装。
我使用pdfminer.six 库附带的pdf2txt.py 实用程序成功提取了文本(从命令行并使用系统python 安装),但不是从我的venv 项目中的代码中提取。我的pdfminer.six 版本是20201018
我的代码可能有什么问题?
【问题讨论】:
-
这个答案有帮助吗? stackoverflow.com/a/26495057/14316282
-
@RolvApneseth 在那里尝试了代码,不起作用,我怀疑它与 Python 路径有关,因为我在虚拟环境中安装了 pdfminer,但我看到它在外面安装了 pdf2txt.py在我的系统 python 安装中,这种行为正常吗?我的意思是我的 venv 内部发生的事情不应该改变我的系统 python 安装
-
这种行为肯定不正常。您安装的任何其他模块是否安装在系统上而不是虚拟环境中?
标签: python pdf windows-10 pdfminer