【发布时间】:2019-05-18 14:31:34
【问题描述】:
我正在开发一个网络爬虫,我需要从一个页面下载一个.pdf 文件。我可以从 html 标记中获取文件名,但找不到下载文件的完整 url(或请求正文)。
我尝试使用 chrome 和 firefox 网络流量工具以及使用 wireshark 来嗅探流量,但没有成功。我可以看到它向与页面本身完全相同的 url 发出发布请求,所以我不明白为什么会发生这种情况。我的猜测是文件名是在 POST 请求正文中发送的,但我也无法在这些工具中找到该信息。如果我可以在正文中看到变量名称,我可以创建请求的副本,然后获取文件。
我怎样才能获得这些信息?
编辑:对于那些想要做类似事情的人,看看这个网站:http://curl.trillworks.com/
它将 cURL 转换为 python 请求代码。很有用
【问题讨论】:
标签: http networking google-chrome-devtools wireshark