【问题标题】:Python, scrape dynamic PDFPython,抓取动态PDF
【发布时间】:2021-09-18 02:23:25
【问题描述】:

我有一个关于从网站 scraping pdf 文档的问题,不幸的是,这并不像我想象的那么简单,因为 pdf 文档是作为网站的一部分嵌入的,它是动态pdf。

以下示例: https://www.morningstar.co.uk/uk/funds/snapshot/snapshot.aspx?id=F000011J7K&tab=14&DocumentId=7967b8f6f4115dce4464b808254383b5&Format=PDF -> 这是 pdf 的位置。

上面的地址其实是从另一个页面获取的: https://www.morningstar.co.uk/uk/funds/snapshot/snapshot.aspx?id=F000011J7K&tab=12这个页面,如果你点击pdf按钮,它会带你到加粗的地址。

抱歉没有任何代码,因为我什至不确定如何开始。

【问题讨论】:

    标签: python pdf web-scraping beautifulsoup python-requests


    【解决方案1】:

    您的网络抓取工具已从

    中识别出您的目标 tab=12 ??
    https://www.morningstar.co.uk/uk/funds/snapshot/snapshot.aspx?id=F000011J7K&tab=12
    

    导致 5 个选项卡中的第 5 个 tab=14 ?? Document.PDF

    https://www.morningstar.co.uk/uk/funds/snapshot/snapshot.aspx?id=F000011J7K&tab=14&DocumentId=7967b8f6f4115dce4464b808254383b5&Format=PDF
    

    稍后在 iFrame 中翻译为

    https://doc.morningstar.com/document/7967b8f6f4115dce4464b808254383b5.msdoc/?clientid=euretailsite
    

    我不知道您从第 2 步到第 3 步是如何处理的,但我们可以清楚地看到我们是否将目标输入到阅读器中 DocumentId=7967b8f6f4115dce4464b808254383b5 使用https://doc.morningstar.com/document/7967b8f6f4115dce4464b808254383b5.msdoc下载我们得到

    1. 加载第 100 页
    2. 使用 DocumentId 查找最后一个选项卡
    3. 读取 ID
    4. 下载具有该 ID 的文档
    5. 吃睡读重复。

    【讨论】:

    猜你喜欢
    • 2021-06-30
    • 1970-01-01
    • 1970-01-01
    • 2014-07-27
    • 2015-04-18
    • 2020-05-24
    • 2015-07-18
    • 2022-01-08
    • 2021-05-07
    相关资源
    最近更新 更多