如何避免网络爬虫重定向到移动版？

【问题标题】：How to avoid redirection of the webcrawler to the mobile edition?如何避免网络爬虫重定向到移动版？
【发布时间】：2013-10-03 12:46:13
【问题描述】：

我对@987654323@ 进行了子类化，并希望从网站中提取数据。但是，我总是被重定向到该网站的移动版本。我试图改变 scrapy 设置中的USER_AGENT 变量为Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.0.1) Gecko/20060111 Firefox/1.5.0.1，但仍会被重定向。

是否有其他方法可以向另一个客户端发出信号并避免重定向？

【问题讨论】：

能否请您显示您的蜘蛛的整个代码（您正在解析的网址）？
一般来说，在抓取的时候，你应该主动宣布你是一个机器人，就像 GoogleBot 一样。我想不出在何种情况下歪曲这一点可能是合乎道德的——您能否更清楚地说明您的目的和目标网站的性质？
我尝试抓取 derstandard.at 的部分内容 - 但是，我总是被重定向到它的（快递/移动）版本：express.derstandard.at

标签： python web-scraping web-crawler scrapy

【解决方案1】：

Scrapy 支持两种类型的重定向：

RedirectMiddleware - 根据响应状态处理请求重定向
MetaRefreshMiddleware - 基于 meta-refresh html 标签处理请求重定向

那么，也许您的 html 页面使用了第二种类型的重定向？

另见：

【讨论】：

猜你喜欢

2019-10-26
1970-01-01
1970-01-01
1970-01-01
1970-01-01
2011-08-03
1970-01-01
1970-01-01
1970-01-01

相关资源

下载 2021-06-05
下载 2022-12-21
下载 2022-12-26

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode