-
pdfminer 是python的一个包,可以用来将pdf转化成文本文档(TXT,xml, html…)
-
安装方法:
pip install pdfminer -
command line (命令行指令)
使用指令行从pdf中提取文本:
python pdf2txt.py samples/simple1.pdf
example:
比如我要提取mypdf.pdf中的文字,
命令就是:python pdf2txt.py mypdf.pdf (注意,使用这条指令时,要先把目录指到 pdf2txt.py 所在的目录,因为我的电脑中,是把它放在pycharm建造的venv中的,所以我就先把目录指向这个地方了:“E:\PythonDoc\pdfparse\venv\Scripts>”
使用 “ -o output : Output file name. ” 定义输出文件的名字python pdf2txt.py -o testpdf mypdf.pdf
以下就是输出:
可以使用记事本打开以查验
相关文章: