Python，抓取动态PDF答案

【问题标题】：Python, scrape dynamic PDFPython，抓取动态PDF
【发布时间】：2021-09-18 02:23:25
【问题描述】：

我有一个关于从网站 scraping pdf 文档的问题，不幸的是，这并不像我想象的那么简单，因为 pdf 文档是作为网站的一部分嵌入的，它是动态pdf。

以下示例： https://www.morningstar.co.uk/uk/funds/snapshot/snapshot.aspx?id=F000011J7K&tab=14&DocumentId=7967b8f6f4115dce4464b808254383b5&Format=PDF -> 这是 pdf 的位置。

上面的地址其实是从另一个页面获取的： https://www.morningstar.co.uk/uk/funds/snapshot/snapshot.aspx?id=F000011J7K&tab=12这个页面，如果你点击pdf按钮，它会带你到加粗的地址。

抱歉没有任何代码，因为我什至不确定如何开始。

【问题讨论】：

标签： python pdf web-scraping beautifulsoup python-requests

【解决方案1】：

您的网络抓取工具已从

中识别出您的目标 tab=12 ??

https://www.morningstar.co.uk/uk/funds/snapshot/snapshot.aspx?id=F000011J7K&tab=12

导致 5 个选项卡中的第 5 个 tab=14 ?? Document.PDF

https://www.morningstar.co.uk/uk/funds/snapshot/snapshot.aspx?id=F000011J7K&tab=14&DocumentId=7967b8f6f4115dce4464b808254383b5&Format=PDF

稍后在 iFrame 中翻译为

https://doc.morningstar.com/document/7967b8f6f4115dce4464b808254383b5.msdoc/?clientid=euretailsite

我不知道您从第 2 步到第 3 步是如何处理的，但我们可以清楚地看到我们是否将目标输入到阅读器中 DocumentId=7967b8f6f4115dce4464b808254383b5 使用https://doc.morningstar.com/document/7967b8f6f4115dce4464b808254383b5.msdoc下载我们得到

加载第 100 页
使用 DocumentId 查找最后一个选项卡
读取 ID
下载具有该 ID 的文档
吃睡读重复。

【讨论】：

morningstar.co.uk/uk/funds/snapshot/… 页面上有一个按钮，单击该按钮将带您进入 tab=14 链接，因此，morningstar.co.uk/uk/funds/snapshot/… 我注意到链接 'morningstar.co.uk/uk/funds/snapshot/…' 是在 HTML 代码中，我不知道如何下载 pdf ，因为我想为其中的 100 个自动执行此操作