【发布时间】:2013-10-03 12:46:13
【问题描述】:
我对@987654323@ 进行了子类化,并希望从网站中提取数据。
但是,我总是被重定向到该网站的移动版本。我试图改变
scrapy 设置中的USER_AGENT 变量为Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.0.1) Gecko/20060111 Firefox/1.5.0.1,但仍会被重定向。
是否有其他方法可以向另一个客户端发出信号并避免重定向?
【问题讨论】:
-
能否请您显示您的蜘蛛的整个代码(您正在解析的网址)?
-
一般来说,在抓取的时候,你应该主动宣布你是一个机器人,就像 GoogleBot 一样。我想不出在何种情况下歪曲这一点可能是合乎道德的——您能否更清楚地说明您的目的和目标网站的性质?
-
我尝试抓取 derstandard.at 的部分内容 - 但是,我总是被重定向到它的(快递/移动)版本:express.derstandard.at
标签: python web-scraping web-crawler scrapy