【问题标题】:Get Text with a PDF Reader?使用 PDF 阅读器获取文本?
【发布时间】:2019-10-06 22:08:30
【问题描述】:

当我阅读 pdf 时,我怎样才能只得到这个简单的文本?

CLSAI10608

此代码始终以 CLXXXXXXXX, LEN = 10 开头。

代码:

import PyPDF2
file = open('document.pdf', 'rb')
pdfreader = PyPDF2.PdfFileReader(file)
pageobj = pdfreader.getPage(0)
print(pageobj.extractText())

输出:

output

【问题讨论】:

    标签: python pdf pypdf2 pdf-reader


    【解决方案1】:

    所以我想出的正则表达式模式搜索以CL 开头的内容,然后是 8 个非空白字符。 regex101.com 提供了方便的解释。

    import re
    
    string = r"""Detalle
    
    Total
    
    4040CL02
    
      Correccion de BL
    
    CLSAI10608LV-PASSERO V0008-MBL : ISGA0F000
    
    47.020"""
    
    match = re.search(r"[C][L]\S{8}", string)
    if match:
        code = match.group()
        print(code)
    

    输出:CLSAI10608

    所以你想用pageobj.extractText()替换string

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2022-06-16
      • 2010-09-06
      • 1970-01-01
      • 2011-04-20
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多