PYTHON爬虫学习笔记1

PYTHON 爬虫框架

1.调度器

2.URL管理器：防止重复以及循环爬取url，通常有三种实现方式，内存，数据库，缓存数据库。

3.网页下载器：通过传入URL来下载一个网页，然后将网页转化成一个字符串。urllib2（python官方库），包括登录，代理，cookie。request（是属于第三方库）

4.网页解析器：正则表达式，html.parser(python自带),beautfulsoup(第三方库)，lxml,除了正则其他都是以DOM树的方式进行解析的。

5.应用程序

PYTHON爬虫学习笔记1