我先在settings里面加点代理

scrapy-中间件

为什么要在这里面加?

它运行的时候就会加载啊,而且可以导入直接用

自己手写多麻烦,而且还得二次加载,你是蠢呢还是蠢呢

名称随便定啊,反正它只是加载,增加啥都行

代理注入

scrapy-中间件

看见没自动注入IP_POOL

一般为了能够识别呢,都需要继承一个类

通过process_reqeust来调整细节

代理是proxy啊,这个不用说

文件写在哪?反正settings配上就行,不做要求

scrapy-中间件

运行

scrapy-中间件

可以看到,连接失败的话,会自动换Ip,多么舒服

不过这个用的是前几天抓的ip,今天失败的肯定会多一些


UserAgent

同样的

scrapy-中间件

始终要记得

1. settings注入数据,好导入,不过不是必须的

2. settings要开启对应的中间件,这是必须的


其他的中间件呢,我还没用到,下载中间件伪装差不多了吧

说到伪装呢,还有一点

scrapy-中间件

放开它

scrapy-中间件

因为有可能是通过cookie来判断的

这样一来,除非是白名单才能过的,要不基本都能爬了

刷新快的话看你爬虫的更新速度了


相关文章: