【发布时间】:2019-04-27 05:01:21
【问题描述】:
http://casesearch.courts.state.md.us/casesearch/inquirySearchParam.jis
我正在尝试编写一个脚本来抓取马里兰州案件搜索网站上的案卷,该网站有公开记录的法庭案件案卷。它是用于研究的,我的目标是最终拥有一个免费网站,以便根据费用、结果等更轻松地搜索案例。不过遇到了一些麻烦。
当用户首次访问该网站时,他们必须先接受免责声明,然后才能访问任何文档。如果他们尝试通过直接链接访问案卷,他们将被重定向到免责声明。
尝试从新会话中访问此直接链接,您就会明白我的意思了。
如果我只是直接获取链接,我最终将只保存免责声明。我尝试在浏览器中接受免责声明,然后保存 cookie 并在 wget 中使用它,但这也不起作用。仍然只是重定向并将免责声明保存为 jsp
【问题讨论】:
标签: jsp web-scraping wget