组件

ip 代理组件作为一个单独的公共模块方便复用:
东方财经财富号爬虫流程(4) -- ip 代理池组件

ip 代理对象

将每一个 ip 代理抽象为一个类:
东方财经财富号爬虫流程(4) -- ip 代理池组件

ProxyPool

初始化

东方财经财富号爬虫流程(4) -- ip 代理池组件

爬取

东方财经财富号爬虫流程(4) -- ip 代理池组件
将 爬取 ip 的实现委托给 proxy_strategy (GetProxyStrategy 类的实例)。

爬取并且定期的健康检查

东方财经财富号爬虫流程(4) -- ip 代理池组件

东方财经财富号爬虫流程(4) -- ip 代理池组件

随机选取可用 ip

东方财经财富号爬虫流程(4) -- ip 代理池组件

GetProxyStrategy

真正解析网站获取 ip 的类。 如果我们买了自己的 ip 代理,可以替换掉这里。 具体看代码吧,这里不再截图。

加入中间件

在 middlewares 中加入代理中间件:
东方财经财富号爬虫流程(4) -- ip 代理池组件
东方财经财富号爬虫流程(4) -- ip 代理池组件

更新时间: 2019-12-19

相关文章: