scrapy项目中的middlewarse.py中间件
爬虫中间件:目前先不介绍
下载中间件(需要在settings.py中开启)
(1)请求处理函数:process_request(self, request, spider)
可以针对url请求指定UA伪装、配置代理等功能(UA伪装可以在settings.py中进行全局配置,代理配置更倾向于在异常处理函数,大部分异常都是因为ip的问题)
1 def process_request(self, request, spider): 2 #UA伪装 3 # request.headers['User-Agent']=random.choice(UA_list) 4 5 #ip代理配置(一般更多的放在process_exception异常处理函数中) 6 # request.meta['proxy']='http[s]://ip:port' 7 return None