一些网站被普通浏览器阻止，并且在隐身模式下运行良好答案

【问题标题】：Some websites are blocked from normal browser and it works well in incognito mode一些网站被普通浏览器阻止，并且在隐身模式下运行良好
【发布时间】：2018-02-01 07:32:13
【问题描述】：

我正在尝试使用 python 从网站上抓取一些数据。在初始阶段它运行良好，但最近它开始阻止脚本请求以及来自我系统的浏览器。我知道目标网站会有一些阻止机制，但我可以从隐身模式浏览同一个网站，没有任何问题。

我该如何解决这个问题？我尝试了一些在隐身浏览器中使用的标头值，但没有结果。

任何帮助表示赞赏。

为引用添加尝试过的标头值

"Accept":"/", "Accept-Encoding":"gzip, deflate, br", "Accept-Language":"en-US,en;q=0.8", "Cache-Control":"no-cache", “连接”：“保持活动”，“内容长度”：“8”， "Content-Type":"application/x-www-form-urlencoded", "Cookie":"JSESSIONID=6+b5vN7wfvBUHfQOK0d7bls; TS01747e58=01d69c8eb5156bae15c47b3d2578bc88361c69fb48d9ec815b7e3e48aaab4afb974a4d8f5b448e558bfcd1da01f6246b460e8d88a2f87a126f0395a213cddcdd; BIGipServerjboss=759271946.20480.0000; TS011968e6_28=01fabe97068921f1b57e70731e79cb34f9d73bcf98d7d1f65c7eb46ba87d3e6e751dec2ee2109c7bc65b7e3cdb05d397b47bdaf21e； TS011968e6=01d69c8eb5a3b1ea223ea72b0b4ace9a0ac39268b9d9ec815b7e3e48aaab4afb974a4d8f5b4d619ddc6882f5ecbd3007321d57f557b77bb39ff7ab95e2310bfa4ef4" "Host":"abc.co.in", "Origin":"https://abc.co.in", "Pragma":"no-cache", "Referer":"https://abc.jsp", "User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36", "X-Requested-With":"XMLHttpRequest", "X-TS-AJAX-Request":"true",

【问题讨论】：

标签： python web-scraping scrapy

【解决方案1】：

如果它在 incognito mode 上运行，则问题更可能与 cookie 有关。

如果您尝试抓取的内容没问题，请尝试在您的 settings.py 中指定此内容：

COOKIES_ENABLED = False

【讨论】：

它在浏览器中工作，但仍然无法使用脚本。
添加了“Cookies-Enabled”：带有标题的“false”
我使用下面的代码来请求 url result = requests.post(SOURCE_URL, data=data, headers=payload)
也许我没有解释自己，我的意思是在你的scrapy项目中的settings.py文件中使用它。这告诉scrapy不要对请求使用cookie，这意味着它不会继续传递会话ID和其他东西。
好的，我明白了。但在我的情况下，它是一个使用类似scrapy技术的django应用程序，我将它添加到settings.py文件但没有结果