我先在settings里面加点代理
为什么要在这里面加?
它运行的时候就会加载啊,而且可以导入直接用
自己手写多麻烦,而且还得二次加载,你是蠢呢还是蠢呢
名称随便定啊,反正它只是加载,增加啥都行
代理注入
看见没自动注入IP_POOL
一般为了能够识别呢,都需要继承一个类
通过process_reqeust来调整细节
代理是proxy啊,这个不用说
文件写在哪?反正settings配上就行,不做要求
运行
可以看到,连接失败的话,会自动换Ip,多么舒服
不过这个用的是前几天抓的ip,今天失败的肯定会多一些
UserAgent
同样的
始终要记得
1. settings注入数据,好导入,不过不是必须的
2. settings要开启对应的中间件,这是必须的
其他的中间件呢,我还没用到,下载中间件伪装差不多了吧
说到伪装呢,还有一点
放开它
因为有可能是通过cookie来判断的
这样一来,除非是白名单才能过的,要不基本都能爬了
刷新快的话看你爬虫的更新速度了