PYTHON 爬虫框架

1.调度器

2.URL管理器:防止重复以及循环爬取url,通常有三种实现方式,内存,数据库,缓存数据库。

3.网页下载器:通过传入URL来下载一个网页 ,然后将网页转化成一个字符串。urllib2(python官方库),包括登录,代理,cookie。request(是属于第三方库)

4.网页解析器:正则表达式,html.parser(python自带),beautfulsoup(第三方库),lxml,除了正则其他都是以DOM树的方式进行解析的。

5.应用程序

PYTHON爬虫学习笔记1

相关文章: