【发布时间】:2017-07-06 18:45:40
【问题描述】:
出于税收目的,我需要提取网站的一些信息,但遗憾的是,“导出”功能无法提供我需要的所有信息。该信息确实存在于网站上,作为 250 多个网页中的每一个中的一个字段。我可以单击每一个并将它们全部保存并使用脚本处理它们,但我宁愿学习一些东西。
request 包自称是天赐之物,尽管我并不喜欢它。问题是我必须登录我的网站。 request 的文档包括 this link on authentication,记录了各种形式的身份验证,但没有包含有关如何判断我的网站实际使用哪种形式的身份验证的信息。我假设当我登录网站时在我的计算机上放置了某种 cookie,理论上,我可以在我的硬盘驱动器上找到它并将其与我的请求一起发送,但我几乎没有使用 cookie 的经验和/或授权,但不知道要发送什么。
如果我可以向同一个站点上的一系列 url 发出一批请求,并且只下载 html,我就可以处理它并生成报告。
在您的回复中,如果有任何关于 http 身份验证和 cookie 如何协同工作的一般知识的链接,我也很乐意阅读。
非常感谢您提供的任何帮助。
【问题讨论】:
标签: python authentication cookies web-scraping