scrapy项目中的middlewarse.py中间件  

爬虫中间件:目前先不介绍

下载中间件(需要在settings.py中开启) 

              scrapy中间件之下载中间件使用(网易新闻爬取)  

(1)请求处理函数:process_request(self, request, spider)
  可以针对url请求指定UA伪装、配置代理等功能(UA伪装可以在settings.py中进行全局配置,代理配置更倾向于在异常处理函数,大部分异常都是因为ip的问题)  
1   def process_request(self, request, spider):
2         #UA伪装
3         # request.headers['User-Agent']=random.choice(UA_list)
4         
5         #ip代理配置(一般更多的放在process_exception异常处理函数中)
6         # request.meta['proxy']='http[s]://ip:port'
7         return None
process_request

相关文章: