【发布时间】:2019-07-16 11:14:34
【问题描述】:
我已经从一个网站上抓取了一个 pdf 链接列表(如链接中的链接)并将它们保存在一个 txt 文档中。我已经检查过了,它们是一个字符串。现在我需要真正下载它们。 我的代码在 Jupyter Notebook 中工作,但是当我尝试打开 PDF 时,它会打开 Internet Explorer,然后显示“无法打开 PDF”。
我知道这适用于单个 pdf 链接(文件名/数据周围没有 str()),但我如何让它与多个链接一起使用?
这是我的代码:
with open('minutelinks.txt', 'r') as file:
data = file.read()
urls = (str(data))
import requests
r = requests.get(urls)
with open("gmcaminutes.pdf", "wb") as code:
code.write(r.content)
它会保存 pdf 但无法打开它。
理想情况下,我想要一个包含所有从字符串下载的 PDF 的 PDF。 谢谢
【问题讨论】:
-
听起来像
code.write不会生成格式正确的 PDF 文件。file gmcaminutes.pdf的输出说文件类型是什么? -
@NathanMcCoy PDF 文件
-
尝试使用 PdfFileMerger 合并 pdf 文件
标签: python pdf web-scraping python-requests