【发布时间】:2021-02-27 19:46:02
【问题描述】:
我正在尝试从 pdf 网址中提取文本。
如果我下载 PDF,我可以使用函数 slate 轻松提取文本。但是,当尝试使用 io 导入 pdf 并提取文本时,返回的输出什么都没有。下面附上代码。
import requests, PyPDF2, io
from io import BytesIO
url = 'https://www.poderjudicial.es/search/contenidos.action?action=accessToPDF&publicinterface=true&tab=AN&reference=e3ca421447bc6b71&encode=true&optimize=20210216&databasematch=AN'
response = requests.get(url)
f = io.BytesIO(response.content)
with f as data:
read_pdf = PyPDF2.PdfFileReader(data)
page = read_pdf.getPage(1)
print(page.extractText())
我尝试了许多其他功能,但都无法正常工作。我做错了吗?
【问题讨论】:
-
response.content的前十个字节是b'%PDF-1.4\n%',所以这在程序中似乎是一个有效的 PDF 文件。你试过打印属性read_pdf.numPages吗?
标签: python web-scraping io pdftotext pdf-extraction