1. pdfminer 是python的一个包,可以用来将pdf转化成文本文档(TXT,xml, html…)

  2. 安装方法:
    pip install pdfminer

  3. command line (命令行指令)
    使用指令行从pdf中提取文本:
    python pdf2txt.py samples/simple1.pdf
    example:
    比如我要提取mypdf.pdf中的文字,
    pdfminer使用方法 - Python Learning Notes 5
    命令就是:python pdf2txt.py mypdf.pdf (注意,使用这条指令时,要先把目录指到 pdf2txt.py 所在的目录,因为我的电脑中,是把它放在pycharm建造的venv中的,所以我就先把目录指向这个地方了:“E:\PythonDoc\pdfparse\venv\Scripts>”
    pdfminer使用方法 - Python Learning Notes 5
    使用 “ -o output : Output file name. ” 定义输出文件的名字

    python pdf2txt.py -o testpdf mypdf.pdf
    以下就是输出:
    pdfminer使用方法 - Python Learning Notes 5
    可以使用记事本打开以查验
    pdfminer使用方法 - Python Learning Notes 5

相关文章:

  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2022-01-10
  • 2021-11-29
  • 2021-04-28
  • 2021-04-06
  • 2021-09-26
猜你喜欢
  • 2021-11-24
  • 2021-07-11
  • 2021-06-28
  • 2021-12-11
  • 2021-06-20
  • 2022-02-17
  • 2021-11-23
相关资源
相似解决方案