【发布时间】:2018-02-01 07:32:13
【问题描述】:
我正在尝试使用 python 从网站上抓取一些数据。在初始阶段它运行良好,但最近它开始阻止脚本请求以及来自我系统的浏览器。 我知道目标网站会有一些阻止机制,但我可以从隐身模式浏览同一个网站,没有任何问题。
我该如何解决这个问题?我尝试了一些在隐身浏览器中使用的标头值,但没有结果。
任何帮助表示赞赏。
为引用添加尝试过的标头值
"Accept":"/", "Accept-Encoding":"gzip, deflate, br", "Accept-Language":"en-US,en;q=0.8", "Cache-Control":"no-cache", “连接”:“保持活动”,“内容长度”:“8”, "Content-Type":"application/x-www-form-urlencoded", "Cookie":"JSESSIONID=6+b5vN7wfvBUHfQOK0d7bls; TS01747e58=01d69c8eb5156bae15c47b3d2578bc88361c69fb48d9ec815b7e3e48aaab4afb974a4d8f5b448e558bfcd1da01f6246b460e8d88a2f87a126f0395a213cddcdd; BIGipServerjboss=759271946.20480.0000; TS011968e6_28=01fabe97068921f1b57e70731e79cb34f9d73bcf98d7d1f65c7eb46ba87d3e6e751dec2ee2109c7bc65b7e3cdb05d397b47bdaf21e; TS011968e6=01d69c8eb5a3b1ea223ea72b0b4ace9a0ac39268b9d9ec815b7e3e48aaab4afb974a4d8f5b4d619ddc6882f5ecbd3007321d57f557b77bb39ff7ab95e2310bfa4ef4" "Host":"abc.co.in", "Origin":"https://abc.co.in", "Pragma":"no-cache", "Referer":"https://abc.jsp", "User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36", "X-Requested-With":"XMLHttpRequest", "X-TS-AJAX-Request":"true",
【问题讨论】:
标签: python web-scraping scrapy