【问题标题】:PyPDF2 extracts blank textPyPDF2 提取空白文本
【发布时间】:2021-05-05 09:24:00
【问题描述】:

我正在尝试从 PyPDF2 中提取文本,但它正在从 PDF 中提取空白文本。 PDF 是文本的,而不是基于图像的。 有什么方法可以概括 pdf 以便提取文本? Bcoz 我不想更改我的整个代码所依赖的库。否则,我将不得不重写整个 2000 多行代码。 在此处查找 pdf:https://drive.google.com/file/d/1aoWtxNhOKwFw2xbBZgv3gzZPOvt5Ovhc/view?usp=sharing

import PyPDF2
pdf_file = open('sample.pdf', 'rb')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()

【问题讨论】:

  • 您可能希望分享相关的 pdf 文件,以便更轻松地为您提供帮助。
  • 对 PDF 的快速检查表明提取空白文本是错误的。您的 PDF 确实包含用于文本提取的信息。我还没有检查它是否完全正确,但是没有输出表明文本提取例程中有错误。
  • 是的,你是对的。这是 PyPDF2 的错误。这不是我拥有数百个无法正常工作的 PDF 的唯一 PDF。也许 PyPDF2 库或其他东西可以接受特定类型的 PDF。

标签: python pdf pypdf2


【解决方案1】:

extractText() 仍然无法正确提取文本。您可以使用另一个名为 slate 的库:

安装石板:

pip install slate3k

提取文本:

with open('G10.pdf','rb') as f:
    extracted_text = slate.PDF(f)
print(extracted_text)

你也可以通过这个答案here

【讨论】:

  • 我不想更改库,整个 2500 多行代码都取决于它。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多