【发布时间】:2020-07-20 09:39:20
【问题描述】:
网页的 html 源代码如下所示
<html>
<body>
<embed name= "random for each page" type = "application/pdf" src = "somesrc" internalid = "random">
</body>
</html>
我需要从 pdf 文件中抓取具有不同数据的多个页面的数据(它们具有不同的名称和内部 ID)。我尝试 find_all 嵌入标签,但没有成功
【问题讨论】:
-
你试过什么?
-
还可以更具体地说明您需要哪些数据。听起来您是在寻求从特定 PDF 文件中获取数据的帮助,对吗?
-
@AaronS 是的,我正在尝试从 pdf 文件中获取数据,我手动下载了一个并使用 PyPDF2 完成,但我不知道如何使用 BeautifulSoup 下载或阅读它。
标签: python web-scraping beautifulsoup