今日内容概要
1、cookie操作
2、pipeline
3、中间件
4、扩展
5、自定义命令
6、scrapy-redis
7、flask使用
- 路由系统
- 视图
- 模版
- message(闪现)
- 中间件
- session
- 蓝图
- 安装第三方插件
Scrapy - 创建project - 创建爬虫 - 编写 - 类 - start_urls = ['http://www.xxx.com'] - def parse(self,response): yield Item对象 yield Request对象 - pipeline - process_item @classmethod - from_clawer - open_spider - close_spider 配置 - request对象("地址",回调函数) - 执行 高性能相关: - 多线程【IO】和多进程【计算】 - 尽可能利用线程: 一个线程(Gevent),基于协程: - 协程,greenlet - 遇到IO就切换 一个线程(Twisted,Tornado),基于事件循环: - IO多路复用 - Socket,setBlocking(Flase)