【问题标题】:How to avoid redirection of the webcrawler to the mobile edition?如何避免网络爬虫重定向到移动版?
【发布时间】:2013-10-03 12:46:13
【问题描述】:

我对@9​​87654323@ 进行了子类化,并希望从网站中提取数据。 但是,我总是被重定向到该网站的移动版本。我试图改变 scrapy 设置中的USER_AGENT 变量为Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.0.1) Gecko/20060111 Firefox/1.5.0.1,但仍会被重定向。

是否有其他方法可以向另一个客户端发出信号并避免重定向?

【问题讨论】:

  • 能否请您显示您的蜘蛛的整个代码(您正在解析的网址)?
  • 一般来说,在抓取的时候,你应该主动宣布你是一个机器人,就像 GoogleBot 一样。我想不出在何种情况下歪曲这一点可能是合乎道德的——您能否更清楚地说明您的目的和目标网站的性质?
  • 我尝试抓取 derstandard.at 的部分内容 - 但是,我总是被重定向到它的(快递/移动)版本:express.derstandard.at

标签: python web-scraping web-crawler scrapy


【解决方案1】:

Scrapy 支持两种类型的重定向:

  • RedirectMiddleware - 根据响应状态处理请求重定向
  • MetaRefreshMiddleware - 基于 meta-refresh html 标签处理请求重定向

那么,也许您的 html 页面使用了第二种类型的重定向?

另见:

【讨论】:

    猜你喜欢
    • 2019-10-26
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-08-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多