【问题标题】:Some websites are blocked from normal browser and it works well in incognito mode一些网站被普通浏览器阻止,并且在隐身模式下运行良好
【发布时间】:2018-02-01 07:32:13
【问题描述】:

我正在尝试使用 python 从网站上抓取一些数据。在初始阶段它运行良好,但最近它开始阻止脚本请求以及来自我系统的浏览器。 我知道目标网站会有一些阻止机制,但我可以从隐身模式浏览同一个网站,没有任何问题。

我该如何解决这个问题?我尝试了一些在隐身浏览器中使用的标头值,但没有结果。

任何帮助表示赞赏。

为引用添加尝试过的标头值

"Accept":"/", "Accept-Encoding":"gzip, deflate, br", "Accept-Language":"en-US,en;q=0.8", "Cache-Control":"no-cache", “连接”:“保持活动”,“内容长度”:“8”, "Content-Type":"application/x-www-form-urlencoded", "Cookie":"JSESSIONID=6+b5vN7wfvBUHfQOK0d7bls; TS01747e58=01d69c8eb5156bae15c47b3d2578bc88361c69fb48d9ec815b7e3e48aaab4afb974a4d8f5b448e558bfcd1da01f6246b460e8d88a2f87a126f0395a213cddcdd; BIGipServerjboss=759271946.20480.0000; TS011968e6_28=01fabe97068921f1b57e70731e79cb34f9d73bcf98d7d1f65c7eb46ba87d3e6e751dec2ee2109c7bc65b7e3cdb05d397b47bdaf21e; TS011968e6=01d69c8eb5a3b1ea223ea72b0b4ace9a0ac39268b9d9ec815b7e3e48aaab4afb974a4d8f5b4d619ddc6882f5ecbd3007321d57f557b77bb39ff7ab95e2310bfa4ef4" "Host":"abc.co.in", "Origin":"https://abc.co.in", "Pragma":"no-cache", "Referer":"https://abc.jsp", "User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36", "X-Requested-With":"XMLHttpRequest", "X-TS-AJAX-Request":"true",

【问题讨论】:

    标签: python web-scraping scrapy


    【解决方案1】:

    如果它在 incognito mode 上运行,则问题更可能与 cookie 有关。

    如果您尝试抓取的内容没问题,请尝试在您的 settings.py 中指定此内容:

    COOKIES_ENABLED = False
    

    【讨论】:

    • 它在浏览器中工作,但仍然无法使用脚本。
    • 添加了“Cookies-Enabled”:带有标题的“false”
    • 我使用下面的代码来请求 url result = requests.post(SOURCE_URL, data=data, headers=payload)
    • 也许我没有解释自己,我的意思是在你的scrapy项目中的settings.py文件中使用它。这告诉scrapy不要对请求使用cookie,这意味着它不会继续传递会话ID和其他东西。
    • 好的,我明白了。但在我的情况下,它是一个使用类似scrapy技术的django应用程序,我将它添加到settings.py文件但没有结果
    猜你喜欢
    • 2019-10-21
    • 2022-01-05
    • 1970-01-01
    • 2017-04-06
    • 1970-01-01
    • 2013-10-02
    • 1970-01-01
    • 1970-01-01
    • 2015-08-18
    相关资源
    最近更新 更多