【发布时间】:2021-09-18 02:23:25
【问题描述】:
我有一个关于从网站 scraping pdf 文档的问题,不幸的是,这并不像我想象的那么简单,因为 pdf 文档是作为网站的一部分嵌入的,它是动态pdf。
以下示例: https://www.morningstar.co.uk/uk/funds/snapshot/snapshot.aspx?id=F000011J7K&tab=14&DocumentId=7967b8f6f4115dce4464b808254383b5&Format=PDF -> 这是 pdf 的位置。
上面的地址其实是从另一个页面获取的: https://www.morningstar.co.uk/uk/funds/snapshot/snapshot.aspx?id=F000011J7K&tab=12这个页面,如果你点击pdf按钮,它会带你到加粗的地址。
抱歉没有任何代码,因为我什至不确定如何开始。
【问题讨论】:
标签: python pdf web-scraping beautifulsoup python-requests